From 691db4772896ae7c77e5737eb28a3bb2c16c6cbe Mon Sep 17 00:00:00 2001
From: Matt Topol <zotthewizard@gmail.com>
Date: Tue, 27 Sep 2022 17:34:47 -0400
Subject: [PATCH 1/9] ARROW-17871: [Go] Initial binary arithmetic

---
 go/arrow/compute/arithmetic.go                |   141 +
 go/arrow/compute/arithmetic_test.go           |   229 +
 go/arrow/compute/internal/exec/utils.go       |    12 +
 go/arrow/compute/internal/kernels/Makefile    |    18 +-
 .../internal/kernels/_lib/base_arithmetic.cc  |   243 +
 .../kernels/_lib/base_arithmetic_avx2_amd64.s | 12671 ++++++++++++++
 .../kernels/_lib/base_arithmetic_sse4_amd64.s | 13530 +++++++++++++++
 .../internal/kernels/_lib/cast_numeric.cc     |    18 +-
 .../compute/internal/kernels/_lib/safe-math.h |  1072 ++
 .../compute/internal/kernels/_lib/types.h     |   477 +
 .../internal/kernels/base_arithmetic.go       |   141 +
 .../internal/kernels/base_arithmetic_amd64.go |    83 +
 .../kernels/base_arithmetic_avx2_amd64.go     |    46 +
 .../kernels/base_arithmetic_avx2_amd64.s      | 12857 ++++++++++++++
 .../kernels/base_arithmetic_sse4_amd64.go     |    46 +
 .../kernels/base_arithmetic_sse4_amd64.s      | 13806 ++++++++++++++++
 .../kernels/basic_arithmetic_noasm.go         |    32 +
 go/arrow/compute/internal/kernels/helpers.go  |    68 +
 .../internal/kernels/scalar_arithmetic.go     |    45 +
 go/arrow/compute/internal/kernels/types.go    |     1 -
 go/arrow/compute/registry.go                  |     1 +
 go/arrow/compute/utils.go                     |   159 +
 go/arrow/datatype.go                          |    10 +
 23 files changed, 55687 insertions(+), 19 deletions(-)
 create mode 100644 go/arrow/compute/arithmetic.go
 create mode 100644 go/arrow/compute/arithmetic_test.go
 create mode 100644 go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
 create mode 100644 go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s
 create mode 100644 go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s
 create mode 100644 go/arrow/compute/internal/kernels/_lib/safe-math.h
 create mode 100644 go/arrow/compute/internal/kernels/_lib/types.h
 create mode 100644 go/arrow/compute/internal/kernels/base_arithmetic.go
 create mode 100644 go/arrow/compute/internal/kernels/base_arithmetic_amd64.go
 create mode 100644 go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.go
 create mode 100644 go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s
 create mode 100644 go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.go
 create mode 100644 go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s
 create mode 100644 go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go
 create mode 100644 go/arrow/compute/internal/kernels/scalar_arithmetic.go

diff --git a/go/arrow/compute/arithmetic.go b/go/arrow/compute/arithmetic.go
new file mode 100644
index 00000000000..113b70b391a
--- /dev/null
+++ b/go/arrow/compute/arithmetic.go
@@ -0,0 +1,141 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+package compute
+
+import (
+	"context"
+	"fmt"
+	"strings"
+
+	"github.com/apache/arrow/go/v10/arrow"
+	"github.com/apache/arrow/go/v10/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v10/arrow/compute/internal/kernels"
+)
+
+type arithmeticFunction struct {
+	ScalarFunction
+}
+
+func (fn *arithmeticFunction) checkDecimals(vals ...arrow.DataType) error {
+	if !hasDecimal(vals...) {
+		return nil
+	}
+
+	if len(vals) != 2 {
+		return nil
+	}
+
+	op := fn.name[:strings.Index(fn.name, "_")]
+	switch op {
+	case "add", "subtract":
+		return castBinaryDecimalArgs(decPromoteAdd, vals...)
+	case "multiply":
+		return castBinaryDecimalArgs(decPromoteMultiply, vals...)
+	case "divide":
+		return castBinaryDecimalArgs(decPromoteDivide, vals...)
+	default:
+		return fmt.Errorf("%w: invalid decimal function: %s", arrow.ErrInvalid, fn.name)
+	}
+}
+
+func (fn *arithmeticFunction) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
+	if err := fn.checkArity(len(vals)); err != nil {
+		return nil, err
+	}
+
+	if err := fn.checkDecimals(vals...); err != nil {
+		return nil, err
+	}
+
+	if kn, err := fn.DispatchExact(vals...); err == nil {
+		return kn, nil
+	}
+
+	ensureDictionaryDecoded(vals...)
+
+	// only promote types for binary funcs
+	if len(vals) == 2 {
+		replaceNullWithOtherType(vals...)
+		if unit, istime := commonTemporalResolution(vals...); istime {
+			replaceTemporalTypes(unit, vals...)
+		} else {
+			if dt := commonNumeric(vals...); dt != nil {
+				replaceTypes(dt, vals...)
+			}
+		}
+	}
+
+	return fn.DispatchExact(vals...)
+}
+
+var (
+	addDoc FunctionDoc
+)
+
+func RegisterScalarArithmetic(reg FunctionRegistry) {
+	addFn := &arithmeticFunction{*NewScalarFunction("add", Binary(), addDoc)}
+	for _, k := range kernels.GetArithmeticKernels(kernels.OpAdd) {
+		if err := addFn.AddKernel(k); err != nil {
+			panic(err)
+		}
+	}
+
+	reg.AddFunction(addFn, false)
+
+	addCheckedFn := &arithmeticFunction{*NewScalarFunction("add_checked", Binary(), addDoc)}
+	for _, k := range kernels.GetArithmeticKernels(kernels.OpAddChecked) {
+		if err := addCheckedFn.AddKernel(k); err != nil {
+			panic(err)
+		}
+	}
+
+	reg.AddFunction(addCheckedFn, false)
+
+	subFn := &arithmeticFunction{*NewScalarFunction("sub", Binary(), addDoc)}
+	for _, k := range kernels.GetArithmeticKernels(kernels.OpSub) {
+		if err := subFn.AddKernel(k); err != nil {
+			panic(err)
+		}
+	}
+
+	reg.AddFunction(subFn, false)
+
+	subCheckedFn := &arithmeticFunction{*NewScalarFunction("sub_checked", Binary(), addDoc)}
+	for _, k := range kernels.GetArithmeticKernels(kernels.OpSubChecked) {
+		if err := subCheckedFn.AddKernel(k); err != nil {
+			panic(err)
+		}
+	}
+
+	reg.AddFunction(subCheckedFn, false)
+}
+
+func Add(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
+	fn := "add"
+	if opts.CheckOverflow {
+		fn = "add_checked"
+	}
+	return CallFunction(ctx, fn, nil, left, right)
+}
+
+func Subtract(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
+	fn := "sub"
+	if opts.CheckOverflow {
+		fn = "sub_checked"
+	}
+	return CallFunction(ctx, fn, nil, left, right)
+}
diff --git a/go/arrow/compute/arithmetic_test.go b/go/arrow/compute/arithmetic_test.go
new file mode 100644
index 00000000000..527e63bc7af
--- /dev/null
+++ b/go/arrow/compute/arithmetic_test.go
@@ -0,0 +1,229 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+package compute_test
+
+import (
+	"context"
+	"fmt"
+	"strings"
+	"testing"
+
+	"github.com/apache/arrow/go/v10/arrow"
+	"github.com/apache/arrow/go/v10/arrow/array"
+	"github.com/apache/arrow/go/v10/arrow/compute"
+	"github.com/apache/arrow/go/v10/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v10/arrow/scalar"
+	"github.com/stretchr/testify/suite"
+)
+
+type binaryFunc = func(context.Context, compute.ArithmeticOptions, compute.Datum, compute.Datum) (compute.Datum, error)
+
+type BinaryArithmeticSuite[T exec.NumericTypes] struct {
+	suite.Suite
+
+	mem  *memory.CheckedAllocator
+	opts compute.ArithmeticOptions
+	ctx  context.Context
+}
+
+func (BinaryArithmeticSuite[T]) DataType() arrow.DataType {
+	return exec.GetDataType[T]()
+}
+
+func (b *BinaryArithmeticSuite[T]) SetupTest() {
+	b.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
+	b.opts.CheckOverflow = false
+	b.ctx = compute.WithAllocator(context.TODO(), b.mem)
+}
+
+func (b *BinaryArithmeticSuite[T]) TearDownTest() {
+	b.mem.AssertSize(b.T(), 0)
+}
+
+func (b *BinaryArithmeticSuite[T]) makeNullScalar() scalar.Scalar {
+	return scalar.MakeNullScalar(b.DataType())
+}
+
+func (b *BinaryArithmeticSuite[T]) makeScalar(val T) scalar.Scalar {
+	return scalar.MakeScalar(val)
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinopScalars(fn binaryFunc, lhs, rhs T, expected T) {
+	left, right := b.makeScalar(lhs), b.makeScalar(rhs)
+	exp := b.makeScalar(expected)
+
+	actual, err := fn(b.ctx, b.opts, &compute.ScalarDatum{Value: left}, &compute.ScalarDatum{Value: right})
+	b.NoError(err)
+	sc := actual.(*compute.ScalarDatum).Value
+
+	b.Truef(scalar.Equals(exp, sc), "expected: %s\ngot: %s", exp, sc)
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinopScArr(fn binaryFunc, lhs T, rhs, expected string) {
+	left := b.makeScalar(lhs)
+	b.assertBinopScalarArr(fn, left, rhs, expected)
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinopScalarArr(fn binaryFunc, lhs scalar.Scalar, rhs, expected string) {
+	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs))
+	defer right.Release()
+	exp, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(expected))
+	defer exp.Release()
+
+	actual, err := fn(b.ctx, b.opts, &compute.ScalarDatum{Value: lhs}, &compute.ArrayDatum{Value: right.Data()})
+	b.NoError(err)
+	defer actual.Release()
+	assertDatumsEqual(b.T(), &compute.ArrayDatum{Value: exp.Data()}, actual)
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinopArrSc(fn binaryFunc, lhs string, rhs T, expected string) {
+	right := b.makeScalar(rhs)
+	b.assertBinopArrScalar(fn, lhs, right, expected)
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinopArrScalar(fn binaryFunc, lhs string, rhs scalar.Scalar, expected string) {
+	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs))
+	defer left.Release()
+	exp, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(expected))
+	defer exp.Release()
+
+	actual, err := fn(b.ctx, b.opts, &compute.ArrayDatum{Value: left.Data()}, &compute.ScalarDatum{Value: rhs})
+	b.NoError(err)
+	defer actual.Release()
+	assertDatumsEqual(b.T(), &compute.ArrayDatum{Value: exp.Data()}, actual)
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinopArrays(fn binaryFunc, lhs, rhs, expected string) {
+	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs))
+	defer left.Release()
+	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs))
+	defer right.Release()
+	exp, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(expected))
+	defer exp.Release()
+
+	b.assertBinop(fn, left, right, exp)
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinop(fn binaryFunc, left, right, expected arrow.Array) {
+	actual, err := fn(b.ctx, b.opts, &compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()})
+	b.Require().NoError(err)
+	defer actual.Release()
+	assertDatumsEqual(b.T(), &compute.ArrayDatum{Value: expected.Data()}, actual)
+
+	// also check (Scalar, Scalar) operations
+	for i := 0; i < expected.Len(); i++ {
+		s, err := scalar.GetScalar(expected, i)
+		b.Require().NoError(err)
+		lhs, _ := scalar.GetScalar(left, i)
+		rhs, _ := scalar.GetScalar(right, i)
+
+		actual, err := fn(b.ctx, b.opts, &compute.ScalarDatum{Value: lhs}, &compute.ScalarDatum{Value: rhs})
+		b.NoError(err)
+		b.Truef(scalar.Equals(s, actual.(*compute.ScalarDatum).Value), "expected: %s\ngot: %s", s, actual)
+	}
+}
+
+func (b *BinaryArithmeticSuite[T]) setOverflowCheck(value bool) {
+	b.opts.CheckOverflow = value
+}
+
+func (b *BinaryArithmeticSuite[T]) assertBinopErr(fn binaryFunc, lhs, rhs, expectedMsg string) {
+	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs))
+	defer left.Release()
+	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs))
+	defer right.Release()
+
+	_, err := fn(b.ctx, b.opts, &compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{Value: right.Data()})
+	b.ErrorIs(err, arrow.ErrInvalid)
+	b.ErrorContains(err, expectedMsg)
+}
+
+func (b *BinaryArithmeticSuite[T]) TestAdd() {
+	b.Run(b.DataType().String(), func() {
+		for _, overflow := range []bool{false, true} {
+			b.Run(fmt.Sprintf("overflow=%t", overflow), func() {
+				b.setOverflowCheck(overflow)
+
+				b.assertBinopArrays(compute.Add, `[]`, `[]`, `[]`)
+				b.assertBinopArrays(compute.Add, `[3, 2, 6]`, `[1, 0, 2]`, `[4, 2, 8]`)
+				// nulls on one side
+				b.assertBinopArrays(compute.Add, `[null, 1, null]`, `[3, 4, 5]`, `[null, 5, null]`)
+				b.assertBinopArrays(compute.Add, `[3, 4, 5]`, `[null, 1, null]`, `[null, 5, null]`)
+				// nulls on both sides
+				b.assertBinopArrays(compute.Add, `[null, 1, 2]`, `[3, 4, null]`, `[null, 5, null]`)
+				// all nulls
+				b.assertBinopArrays(compute.Add, `[null]`, `[null]`, `[null]`)
+
+				// scalar on the left
+				b.assertBinopScArr(compute.Add, 3, `[1, 2]`, `[4, 5]`)
+				b.assertBinopScArr(compute.Add, 3, `[null, 2]`, `[null, 5]`)
+				b.assertBinopScalarArr(compute.Add, b.makeNullScalar(), `[1, 2]`, `[null, null]`)
+				b.assertBinopScalarArr(compute.Add, b.makeNullScalar(), `[null, 2]`, `[null, null]`)
+				// scalar on the right
+				b.assertBinopArrSc(compute.Add, `[1, 2]`, 3, `[4, 5]`)
+				b.assertBinopArrSc(compute.Add, `[null, 2]`, 3, `[null, 5]`)
+				b.assertBinopArrScalar(compute.Add, `[1, 2]`, b.makeNullScalar(), `[null, null]`)
+				b.assertBinopArrScalar(compute.Add, `[null, 2]`, b.makeNullScalar(), `[null, null]`)
+			})
+		}
+	})
+}
+
+func (b *BinaryArithmeticSuite[T]) TestSub() {
+	b.Run(b.DataType().String(), func() {
+		for _, overflow := range []bool{false, true} {
+			b.Run(fmt.Sprintf("overflow=%t", overflow), func() {
+				b.setOverflowCheck(overflow)
+
+				b.assertBinopArrays(compute.Subtract, `[]`, `[]`, `[]`)
+				b.assertBinopArrays(compute.Subtract, `[3, 2, 6]`, `[1, 0, 2]`, `[2, 2, 4]`)
+				// nulls on one side
+				b.assertBinopArrays(compute.Subtract, `[null, 4, null]`, `[2, 1, 0]`, `[null, 3, null]`)
+				b.assertBinopArrays(compute.Subtract, `[3, 4, 5]`, `[null, 1, null]`, `[null, 3, null]`)
+				// nulls on both sides
+				b.assertBinopArrays(compute.Subtract, `[null, 4, 3]`, `[2, 1, null]`, `[null, 3, null]`)
+				// all nulls
+				b.assertBinopArrays(compute.Subtract, `[null]`, `[null]`, `[null]`)
+
+				// scalar on the left
+				b.assertBinopScArr(compute.Subtract, 3, `[1, 2]`, `[2, 1]`)
+				b.assertBinopScArr(compute.Subtract, 3, `[null, 2]`, `[null, 1]`)
+				b.assertBinopScalarArr(compute.Subtract, b.makeNullScalar(), `[1, 2]`, `[null, null]`)
+				b.assertBinopScalarArr(compute.Subtract, b.makeNullScalar(), `[null, 2]`, `[null, null]`)
+				// scalar on the right
+				b.assertBinopArrSc(compute.Subtract, `[4, 5]`, 3, `[1, 2]`)
+				b.assertBinopArrSc(compute.Subtract, `[null, 5]`, 3, `[null, 2]`)
+				b.assertBinopArrScalar(compute.Subtract, `[1, 2]`, b.makeNullScalar(), `[null, null]`)
+				b.assertBinopArrScalar(compute.Subtract, `[null, 2]`, b.makeNullScalar(), `[null, null]`)
+			})
+		}
+	})
+}
+
+func TestBinaryArithmetic(t *testing.T) {
+	suite.Run(t, new(BinaryArithmeticSuite[int8]))
+	suite.Run(t, new(BinaryArithmeticSuite[uint8]))
+	suite.Run(t, new(BinaryArithmeticSuite[int16]))
+	suite.Run(t, new(BinaryArithmeticSuite[uint16]))
+	suite.Run(t, new(BinaryArithmeticSuite[int32]))
+	suite.Run(t, new(BinaryArithmeticSuite[uint32]))
+	suite.Run(t, new(BinaryArithmeticSuite[int64]))
+	suite.Run(t, new(BinaryArithmeticSuite[uint64]))
+	suite.Run(t, new(BinaryArithmeticSuite[float32]))
+	suite.Run(t, new(BinaryArithmeticSuite[float64]))
+}
diff --git a/go/arrow/compute/internal/exec/utils.go b/go/arrow/compute/internal/exec/utils.go
index 876e3f38ece..903748a1176 100644
--- a/go/arrow/compute/internal/exec/utils.go
+++ b/go/arrow/compute/internal/exec/utils.go
@@ -135,6 +135,13 @@ func Min[T constraints.Ordered](a, b T) T {
 	return b
 }
 
+func Max[T constraints.Ordered](a, b T) T {
+	if a > b {
+		return a
+	}
+	return b
+}
+
 // OptionsInit should be used in the case where a KernelState is simply
 // represented with a specific type by value (instead of pointer).
 // This will initialize the KernelState as a value-copied instance of
@@ -172,6 +179,11 @@ func GetDataType[T NumericTypes | bool | string]() arrow.DataType {
 	return typMap[reflect.TypeOf(z)]
 }
 
+func GetType[T NumericTypes | bool | string]() arrow.Type {
+	var z T
+	return typMap[reflect.TypeOf(z)].ID()
+}
+
 type arrayBuilder[T NumericTypes] interface {
 	array.Builder
 	Append(T)
diff --git a/go/arrow/compute/internal/kernels/Makefile b/go/arrow/compute/internal/kernels/Makefile
index 752c38d412d..96238cc9a12 100644
--- a/go/arrow/compute/internal/kernels/Makefile
+++ b/go/arrow/compute/internal/kernels/Makefile
@@ -36,7 +36,8 @@ ALL_SOURCES := $(shell find . -path ./_lib -prune -o -name '*.go' -name '*.s' -n
 .PHONEY: assembly
 
 INTEL_SOURCES := \
-	cast_numeric_avx2_amd64.s cast_numeric_sse4_amd64.s constant_factor_avx2_amd64.s constant_factor_sse4_amd64.s
+	cast_numeric_avx2_amd64.s cast_numeric_sse4_amd64.s constant_factor_avx2_amd64.s \
+	constant_factor_sse4_amd64.s base_arithmetic_avx2_amd64.s base_arithmetic_sse4_amd64.s
 
 #
 # ARROW-15336: DO NOT add the assembly target for Arm64 (ARM_SOURCES) until c2goasm added the Arm64 support.
@@ -55,6 +56,15 @@ _lib/cast_numeric_sse4_amd64.s: _lib/cast_numeric.cc
 _lib/cast_numeric_neon.s: _lib/cast_numeric.cc
 	$(CXX) -std=c++17 -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
 
+_lib/base_arithmetic_avx2_amd64.s: _lib/base_arithmetic.cc
+	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
+
+_lib/base_arithmetic_sse4_amd64.s: _lib/base_arithmetic.cc
+	$(CXX) -std=c++17 -S $(C_FLAGS) $(ASM_FLAGS_SSE4) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
+
+_lib/base_arithmetic_neon.s: _lib/base_arithmetic.cc
+	$(CXX) -std=c++17 -S $(C_FLAGS_NEON) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
+
 _lib/constant_factor_avx2_amd64.s: _lib/constant_factor.c
 	$(CC) -S $(C_FLAGS) $(ASM_FLAGS_AVX2) $^ -o $@ ; $(PERL_FIXUP_ROTATE) $@
 
@@ -76,6 +86,12 @@ constant_factor_avx2_amd64.s: _lib/constant_factor_avx2_amd64.s
 constant_factor_sse4_amd64.s: _lib/constant_factor_sse4_amd64.s
 	$(C2GOASM) -a -f $^ $@
 
+base_arithmetic_avx2_amd64.s: _lib/base_arithmetic_avx2_amd64.s
+	$(C2GOASM) -a -f $^ $@
+
+base_arithmetic_sse4_amd64.s: _lib/base_arithmetic_sse4_amd64.s
+	$(C2GOASM) -a -f $^ $@
+
 clean:
 	rm -f $(INTEL_SOURCES)
 	rm -f $(addprefix _lib/,$(INTEL_SOURCES))
diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc b/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
new file mode 100644
index 00000000000..335434702c5
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
@@ -0,0 +1,243 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+#include <arch.h>
+#include <stdint.h>
+#include "types.h"
+#include "safe-math.h"
+
+	// Define functions AddWithOverflow, SubtractWithOverflow, MultiplyWithOverflow
+// with the signature `bool(T u, T v, T* out)` where T is an integer type.
+// On overflow, these functions return true.  Otherwise, false is returned
+// and `out` is updated with the result of the operation.
+
+#define OP_WITH_OVERFLOW(_func_name, _psnip_op, _type, _psnip_type) \
+  static inline bool _func_name(_type u, _type v, _type* out) {     \
+    return !psnip_safe_##_psnip_type##_##_psnip_op(out, u, v);      \
+  }
+
+#define OPS_WITH_OVERFLOW(_func_name, _psnip_op)            \
+  OP_WITH_OVERFLOW(_func_name, _psnip_op, int8_t, int8)     \
+  OP_WITH_OVERFLOW(_func_name, _psnip_op, int16_t, int16)   \
+  OP_WITH_OVERFLOW(_func_name, _psnip_op, int32_t, int32)   \
+  OP_WITH_OVERFLOW(_func_name, _psnip_op, int64_t, int64)   \
+  OP_WITH_OVERFLOW(_func_name, _psnip_op, uint8_t, uint8)   \
+  OP_WITH_OVERFLOW(_func_name, _psnip_op, uint16_t, uint16) \
+  OP_WITH_OVERFLOW(_func_name, _psnip_op, uint32_t, uint32) \
+  OP_WITH_OVERFLOW(_func_name, _psnip_op, uint64_t, uint64)
+
+OPS_WITH_OVERFLOW(AddWithOverflow, add)
+OPS_WITH_OVERFLOW(SubtractWithOverflow, sub)
+OPS_WITH_OVERFLOW(MultiplyWithOverflow, mul)
+OPS_WITH_OVERFLOW(DivideWithOverflow, div)
+
+enum class optype : int8_t {
+    ADD,
+    ADD_CHECKED,
+    SUB, 
+    SUB_CHECKED,
+};
+
+template <typename T>
+using is_unsigned_integer_value = bool_constant<is_integral_v<T> && is_unsigned_v<T>>;
+
+template <typename T>
+using is_signed_integer_value = bool_constant<is_integral_v<T> && is_signed_v<T>>;
+
+template <typename T, typename R = T>
+using enable_if_signed_integer_t = enable_if_t<is_signed_integer_value<T>::value, R>;
+
+template <typename T, typename R = T>
+using enable_if_unsigned_integer_t = enable_if_t<is_unsigned_integer_value<T>::value, R>;
+
+template <typename T, typename R = T>
+using enable_if_integer_t = enable_if_t<
+    is_signed_integer_value<T>::value || is_unsigned_integer_value<T>::value, R>;
+
+template <typename T, typename R = T>
+using enable_if_floating_t = enable_if_t<is_floating_point_v<T>, R>;
+
+struct Add {
+    template <typename T, typename Arg0, typename Arg1>
+    static constexpr enable_if_floating_t<T> Call(Arg0 left, Arg1 right, bool*) {
+        return left + right;
+    }
+
+    template <typename T, typename Arg0, typename Arg1>
+    static constexpr enable_if_integer_t<T> Call(Arg0 left, Arg1 right, bool*) {
+        return left + right;
+    }
+};
+
+struct Sub {
+    template <typename T, typename Arg0, typename Arg1>
+    static constexpr enable_if_floating_t<T> Call(Arg0 left, Arg1 right, bool*) {
+        return left - right;
+    }
+
+    template <typename T, typename Arg0, typename Arg1>
+    static constexpr enable_if_integer_t<T> Call(Arg0 left, Arg1 right, bool*) {
+        return left - right;
+    }
+};
+
+struct AddChecked {
+    template <typename T, typename Arg0, typename Arg1>
+    static constexpr enable_if_floating_t<T> Call(Arg0 left, Arg1 right, bool*) {
+        return left + right;
+    }
+
+    template <typename T, typename Arg0, typename Arg1>
+    static constexpr enable_if_integer_t<T> Call(Arg0 left, Arg1 right, bool* failure) {
+        static_assert(is_same<T, Arg0>::value && is_same<T, Arg1>::value, "");
+        T result = 0;
+        if (AddWithOverflow(left, right, &result)) {
+            *failure = true;
+        }
+        return result;
+    }    
+};
+
+
+struct SubChecked {
+    template <typename T, typename Arg0, typename Arg1>
+    static constexpr enable_if_floating_t<T> Call(Arg0 left, Arg1 right, bool*) {
+        return left - right;
+    }
+
+    template <typename T, typename Arg0, typename Arg1>
+    static constexpr enable_if_integer_t<T> Call(Arg0 left, Arg1 right, bool* failure) {
+        static_assert(is_same<T, Arg0>::value && is_same<T, Arg1>::value, "");
+        T result = 0;
+        if (SubtractWithOverflow(left, right, &result)) {
+            *failure = true;
+        }
+        return result;
+    }    
+};
+
+template <typename T, typename Op>
+struct arithmetic_op_arr_arr_impl {
+    static inline void exec(const void* in_left, const void* in_right, void* out, const int len) {
+        const T* left = reinterpret_cast<const T*>(in_left);
+        const T* right = reinterpret_cast<const T*>(in_right);
+        T* output = reinterpret_cast<T*>(out);
+
+        bool failure = false;
+        for (int i = 0; i < len; ++i) {
+            output[i] = Op::template Call<T, T, T>(left[i], right[i], &failure);
+        }
+    }
+};
+
+template <typename T, typename Op>
+struct arithmetic_op_arr_scalar_impl {
+    static inline void exec(const void* in_left, const void* scalar_right, void* out, const int len) {
+        const T* left = reinterpret_cast<const T*>(in_left);
+        const T right = *reinterpret_cast<const T*>(scalar_right);
+        T* output = reinterpret_cast<T*>(out);
+
+        bool failure = false;
+        for (int i = 0; i < len; ++i) {
+            output[i] = Op::template Call<T, T, T>(left[i], right, &failure);
+        }
+    }
+};
+
+template <typename T, typename Op>
+struct arithmetic_op_scalar_arr_impl {
+    static inline void exec(const void* scalar_left, const void* in_right, void* out, const int len) {
+        const T left = *reinterpret_cast<const T*>(scalar_left);
+        const T* right = reinterpret_cast<const T*>(in_right);
+        T* output = reinterpret_cast<T*>(out);
+
+        bool failure = false;
+        for (int i = 0; i < len; ++i) {
+            output[i] = Op::template Call<T, T, T>(left, right[i], &failure);
+        }
+    }
+};
+
+
+template <typename Op, template<typename...> typename Impl>
+static inline void arithmetic_op(const int type, const void* in_left, const void* in_right, void* output, const int len) {
+    const auto intype = static_cast<arrtype>(type);
+
+    switch (intype) {
+    case arrtype::UINT8:
+        Impl<uint8_t, Op>::exec(in_left, in_right, output, len);
+        break;
+    case arrtype::INT8:
+        Impl<int8_t, Op>::exec(in_left, in_right, output, len);
+        break;
+    case arrtype::UINT16:
+        Impl<uint16_t, Op>::exec(in_left, in_right, output, len);
+        break;
+    case arrtype::INT16:
+        Impl<int16_t, Op>::exec(in_left, in_right, output, len);
+        break;
+    case arrtype::UINT32:
+        Impl<uint32_t, Op>::exec(in_left, in_right, output, len);
+        break;
+    case arrtype::INT32:
+        Impl<int32_t, Op>::exec(in_left, in_right, output, len);
+        break;
+    case arrtype::UINT64:
+        Impl<uint64_t, Op>::exec(in_left, in_right, output, len);
+        break;
+    case arrtype::INT64:
+        Impl<int64_t, Op>::exec(in_left, in_right, output, len);
+        break;
+    case arrtype::FLOAT32:
+        Impl<float, Op>::exec(in_left, in_right, output, len);
+        break;
+    case arrtype::FLOAT64:
+        Impl<double, Op>::exec(in_left, in_right, output, len);
+        break;
+    default:
+        break;
+    }
+}
+
+template <template <typename...> class Impl>
+static inline void arithmetic_impl(const int type, const int8_t op, const void* in_left, const void* in_right, void* out, const int len) {
+    const auto opt = static_cast<optype>(op);
+
+    switch (opt) {
+    case optype::ADD:
+        arithmetic_op<Add, Impl>(type, in_left, in_right, out, len);
+    case optype::ADD_CHECKED:
+        arithmetic_op<AddChecked, Impl>(type, in_left, in_right, out, len);
+    case optype::SUB:
+        arithmetic_op<Sub, Impl>(type, in_left, in_right, out, len);
+    case optype::SUB_CHECKED:
+        arithmetic_op<SubChecked, Impl>(type, in_left, in_right, out, len);
+    default:
+        break;
+    }
+}
+
+extern "C" void FULL_NAME(arithmetic)(const int type, const int8_t op, const void* in_left, const void* in_right, void* out, const int len) {
+    arithmetic_impl<arithmetic_op_arr_arr_impl>(type, op, in_left, in_right, out, len);
+}
+
+extern "C" void FULL_NAME(arithmetic_arr_scalar)(const int type, const int8_t op, const void* in_left, const void* in_right, void* out, const int len) {
+    arithmetic_impl<arithmetic_op_arr_scalar_impl>(type, op, in_left, in_right, out, len);
+}
+
+extern "C" void FULL_NAME(arithmetic_scalar_arr)(const int type, const int8_t op, const void* in_left, const void* in_right, void* out, const int len) {
+    arithmetic_impl<arithmetic_op_scalar_arr_impl>(type, op, in_left, in_right, out, len);    
+}
\ No newline at end of file
diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s
new file mode 100644
index 00000000000..3a380e09da0
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s
@@ -0,0 +1,12671 @@
+	.text
+	.intel_syntax noprefix
+	.file	"base_arithmetic.cc"
+	.globl	arithmetic_avx2                 # -- Begin function arithmetic_avx2
+	.p2align	4, 0x90
+	.type	arithmetic_avx2,@function
+arithmetic_avx2:                        # @arithmetic_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r14
+	push	rbx
+	and	rsp, -8
+	cmp	sil, 1
+	jg	.LBB0_3
+# %bb.1:
+	test	sil, sil
+	je	.LBB0_5
+# %bb.2:
+	cmp	sil, 1
+	jne	.LBB0_537
+.LBB0_138:
+	cmp	edi, 6
+	jg	.LBB0_151
+# %bb.139:
+	cmp	edi, 3
+	jle	.LBB0_140
+# %bb.145:
+	cmp	edi, 4
+	je	.LBB0_184
+# %bb.146:
+	cmp	edi, 5
+	je	.LBB0_196
+# %bb.147:
+	cmp	edi, 6
+	jne	.LBB0_271
+# %bb.148:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.149:
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_208
+# %bb.150:
+	xor	esi, esi
+.LBB0_213:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_215
+	.p2align	4, 0x90
+.LBB0_214:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, dword ptr [rcx + 4*rsi]
+	add	ebx, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], ebx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_214
+.LBB0_215:
+	cmp	r10, 3
+	jb	.LBB0_271
+	.p2align	4, 0x90
+.LBB0_216:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_216
+	jmp	.LBB0_271
+.LBB0_3:
+	cmp	sil, 2
+	je	.LBB0_271
+# %bb.4:
+	cmp	sil, 3
+	jne	.LBB0_537
+.LBB0_404:
+	cmp	edi, 6
+	jg	.LBB0_417
+# %bb.405:
+	cmp	edi, 3
+	jle	.LBB0_406
+# %bb.411:
+	cmp	edi, 4
+	je	.LBB0_450
+# %bb.412:
+	cmp	edi, 5
+	je	.LBB0_462
+# %bb.413:
+	cmp	edi, 6
+	jne	.LBB0_537
+# %bb.414:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.415:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_474
+# %bb.416:
+	xor	esi, esi
+	jmp	.LBB0_479
+.LBB0_417:
+	cmp	edi, 8
+	jle	.LBB0_418
+# %bb.423:
+	cmp	edi, 9
+	je	.LBB0_504
+# %bb.424:
+	cmp	edi, 11
+	je	.LBB0_516
+# %bb.425:
+	cmp	edi, 12
+	jne	.LBB0_537
+# %bb.426:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.427:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_528
+# %bb.428:
+	xor	esi, esi
+	jmp	.LBB0_533
+.LBB0_5:
+	cmp	edi, 6
+	jg	.LBB0_18
+# %bb.6:
+	cmp	edi, 3
+	jle	.LBB0_7
+# %bb.12:
+	cmp	edi, 4
+	je	.LBB0_51
+# %bb.13:
+	cmp	edi, 5
+	je	.LBB0_63
+# %bb.14:
+	cmp	edi, 6
+	jne	.LBB0_138
+# %bb.15:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.16:
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_75
+# %bb.17:
+	xor	esi, esi
+	jmp	.LBB0_80
+.LBB0_151:
+	cmp	edi, 8
+	jle	.LBB0_152
+# %bb.157:
+	cmp	edi, 9
+	je	.LBB0_238
+# %bb.158:
+	cmp	edi, 11
+	je	.LBB0_250
+# %bb.159:
+	cmp	edi, 12
+	jne	.LBB0_271
+# %bb.160:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.161:
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_262
+# %bb.162:
+	xor	esi, esi
+.LBB0_267:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_269
+	.p2align	4, 0x90
+.LBB0_268:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_268
+.LBB0_269:
+	cmp	r10, 3
+	jb	.LBB0_271
+	.p2align	4, 0x90
+.LBB0_270:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_270
+	jmp	.LBB0_271
+.LBB0_18:
+	cmp	edi, 8
+	jle	.LBB0_19
+# %bb.24:
+	cmp	edi, 9
+	je	.LBB0_105
+# %bb.25:
+	cmp	edi, 11
+	je	.LBB0_117
+# %bb.26:
+	cmp	edi, 12
+	jne	.LBB0_138
+# %bb.27:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.28:
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_129
+# %bb.29:
+	xor	esi, esi
+	jmp	.LBB0_134
+.LBB0_406:
+	cmp	edi, 2
+	je	.LBB0_429
+# %bb.407:
+	cmp	edi, 3
+	jne	.LBB0_537
+# %bb.408:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.409:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_441
+# %bb.410:
+	xor	esi, esi
+	jmp	.LBB0_446
+.LBB0_418:
+	cmp	edi, 7
+	je	.LBB0_483
+# %bb.419:
+	cmp	edi, 8
+	jne	.LBB0_537
+# %bb.420:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.421:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_495
+# %bb.422:
+	xor	esi, esi
+	jmp	.LBB0_500
+.LBB0_140:
+	cmp	edi, 2
+	je	.LBB0_163
+# %bb.141:
+	cmp	edi, 3
+	jne	.LBB0_271
+# %bb.142:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.143:
+	mov	r11d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_175
+# %bb.144:
+	xor	esi, esi
+.LBB0_180:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_182
+	.p2align	4, 0x90
+.LBB0_181:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, byte ptr [rcx + rsi]
+	add	bl, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], bl
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_181
+.LBB0_182:
+	cmp	r10, 3
+	jb	.LBB0_271
+	.p2align	4, 0x90
+.LBB0_183:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_183
+	jmp	.LBB0_271
+.LBB0_152:
+	cmp	edi, 7
+	je	.LBB0_217
+# %bb.153:
+	cmp	edi, 8
+	jne	.LBB0_271
+# %bb.154:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.155:
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_229
+# %bb.156:
+	xor	esi, esi
+.LBB0_234:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_236
+	.p2align	4, 0x90
+.LBB0_235:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, qword ptr [rcx + 8*rsi]
+	add	rbx, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rbx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_235
+.LBB0_236:
+	cmp	r10, 3
+	jb	.LBB0_271
+	.p2align	4, 0x90
+.LBB0_237:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_237
+	jmp	.LBB0_271
+.LBB0_450:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.451:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_453
+# %bb.452:
+	xor	esi, esi
+	jmp	.LBB0_458
+.LBB0_462:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.463:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_465
+# %bb.464:
+	xor	esi, esi
+	jmp	.LBB0_470
+.LBB0_504:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.505:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_507
+# %bb.506:
+	xor	esi, esi
+	jmp	.LBB0_512
+.LBB0_516:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.517:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_519
+# %bb.518:
+	xor	esi, esi
+	jmp	.LBB0_524
+.LBB0_429:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.430:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_432
+# %bb.431:
+	xor	esi, esi
+	jmp	.LBB0_437
+.LBB0_483:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.484:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_486
+# %bb.485:
+	xor	esi, esi
+	jmp	.LBB0_491
+.LBB0_7:
+	cmp	edi, 2
+	je	.LBB0_30
+# %bb.8:
+	cmp	edi, 3
+	jne	.LBB0_138
+# %bb.9:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.10:
+	mov	r11d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_42
+# %bb.11:
+	xor	esi, esi
+	jmp	.LBB0_47
+.LBB0_19:
+	cmp	edi, 7
+	je	.LBB0_84
+# %bb.20:
+	cmp	edi, 8
+	jne	.LBB0_138
+# %bb.21:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.22:
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_96
+# %bb.23:
+	xor	esi, esi
+	jmp	.LBB0_101
+.LBB0_184:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.185:
+	mov	r11d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_187
+# %bb.186:
+	xor	esi, esi
+.LBB0_192:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_194
+	.p2align	4, 0x90
+.LBB0_193:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rcx + 2*rsi]
+	add	bx, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_193
+.LBB0_194:
+	cmp	r10, 3
+	jb	.LBB0_271
+	.p2align	4, 0x90
+.LBB0_195:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_195
+	jmp	.LBB0_271
+.LBB0_196:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.197:
+	mov	r11d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_199
+# %bb.198:
+	xor	esi, esi
+.LBB0_204:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_206
+	.p2align	4, 0x90
+.LBB0_205:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rcx + 2*rsi]
+	add	bx, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_205
+.LBB0_206:
+	cmp	r10, 3
+	jb	.LBB0_271
+	.p2align	4, 0x90
+.LBB0_207:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_207
+	jmp	.LBB0_271
+.LBB0_238:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.239:
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_241
+# %bb.240:
+	xor	esi, esi
+.LBB0_246:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_248
+	.p2align	4, 0x90
+.LBB0_247:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, qword ptr [rcx + 8*rsi]
+	add	rbx, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rbx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_247
+.LBB0_248:
+	cmp	r10, 3
+	jb	.LBB0_271
+	.p2align	4, 0x90
+.LBB0_249:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_249
+	jmp	.LBB0_271
+.LBB0_250:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.251:
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_253
+# %bb.252:
+	xor	esi, esi
+.LBB0_258:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_260
+	.p2align	4, 0x90
+.LBB0_259:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_259
+.LBB0_260:
+	cmp	r10, 3
+	jb	.LBB0_271
+	.p2align	4, 0x90
+.LBB0_261:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_261
+	jmp	.LBB0_271
+.LBB0_163:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.164:
+	mov	r11d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_166
+# %bb.165:
+	xor	esi, esi
+.LBB0_171:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_173
+	.p2align	4, 0x90
+.LBB0_172:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, byte ptr [rcx + rsi]
+	add	bl, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], bl
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_172
+.LBB0_173:
+	cmp	r10, 3
+	jb	.LBB0_271
+	.p2align	4, 0x90
+.LBB0_174:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_174
+	jmp	.LBB0_271
+.LBB0_217:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.218:
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_220
+# %bb.219:
+	xor	esi, esi
+.LBB0_225:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_227
+	.p2align	4, 0x90
+.LBB0_226:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, dword ptr [rcx + 4*rsi]
+	add	ebx, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], ebx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_226
+.LBB0_227:
+	cmp	r10, 3
+	jb	.LBB0_271
+	.p2align	4, 0x90
+.LBB0_228:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_228
+	jmp	.LBB0_271
+.LBB0_51:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.52:
+	mov	r11d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_54
+# %bb.53:
+	xor	esi, esi
+	jmp	.LBB0_59
+.LBB0_63:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.64:
+	mov	r11d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_66
+# %bb.65:
+	xor	esi, esi
+	jmp	.LBB0_71
+.LBB0_105:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.106:
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_108
+# %bb.107:
+	xor	esi, esi
+	jmp	.LBB0_113
+.LBB0_117:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.118:
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_120
+# %bb.119:
+	xor	esi, esi
+	jmp	.LBB0_125
+.LBB0_30:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.31:
+	mov	r11d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_33
+# %bb.32:
+	xor	esi, esi
+	jmp	.LBB0_38
+.LBB0_84:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.85:
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_87
+# %bb.86:
+	xor	esi, esi
+	jmp	.LBB0_92
+.LBB0_474:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_479
+# %bb.475:
+	and	al, dil
+	jne	.LBB0_479
+# %bb.476:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB0_477:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_477
+# %bb.478:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_479:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_481
+	.p2align	4, 0x90
+.LBB0_480:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, dword ptr [rdx + 4*rsi]
+	sub	ebx, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], ebx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_480
+.LBB0_481:
+	cmp	rdi, 3
+	jb	.LBB0_537
+	.p2align	4, 0x90
+.LBB0_482:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_482
+	jmp	.LBB0_537
+.LBB0_528:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_533
+# %bb.529:
+	and	al, dil
+	jne	.LBB0_533
+# %bb.530:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB0_531:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vsubpd	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
+	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vsubpd	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vsubpd	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_531
+# %bb.532:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_533:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_535
+	.p2align	4, 0x90
+.LBB0_534:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_534
+.LBB0_535:
+	cmp	rdi, 3
+	jb	.LBB0_537
+	.p2align	4, 0x90
+.LBB0_536:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_536
+	jmp	.LBB0_537
+.LBB0_441:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_446
+# %bb.442:
+	and	al, dil
+	jne	.LBB0_446
+# %bb.443:
+	mov	esi, r10d
+	and	esi, -128
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB0_444:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
+	sub	rdi, -128
+	cmp	rsi, rdi
+	jne	.LBB0_444
+# %bb.445:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_446:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_448
+	.p2align	4, 0x90
+.LBB0_447:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, byte ptr [rdx + rsi]
+	sub	bl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], bl
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_447
+.LBB0_448:
+	cmp	rdi, 3
+	jb	.LBB0_537
+	.p2align	4, 0x90
+.LBB0_449:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_449
+	jmp	.LBB0_537
+.LBB0_495:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_500
+# %bb.496:
+	and	al, dil
+	jne	.LBB0_500
+# %bb.497:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB0_498:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_498
+# %bb.499:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_500:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_502
+	.p2align	4, 0x90
+.LBB0_501:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, qword ptr [rdx + 8*rsi]
+	sub	rbx, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rbx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_501
+.LBB0_502:
+	cmp	rdi, 3
+	jb	.LBB0_537
+	.p2align	4, 0x90
+.LBB0_503:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_503
+	jmp	.LBB0_537
+.LBB0_453:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_458
+# %bb.454:
+	and	al, dil
+	jne	.LBB0_458
+# %bb.455:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB0_456:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_456
+# %bb.457:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_458:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_460
+	.p2align	4, 0x90
+.LBB0_459:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rdx + 2*rsi]
+	sub	bx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_459
+.LBB0_460:
+	cmp	rdi, 3
+	jb	.LBB0_537
+	.p2align	4, 0x90
+.LBB0_461:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_461
+	jmp	.LBB0_537
+.LBB0_465:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_470
+# %bb.466:
+	and	al, dil
+	jne	.LBB0_470
+# %bb.467:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB0_468:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_468
+# %bb.469:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_470:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_472
+	.p2align	4, 0x90
+.LBB0_471:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rdx + 2*rsi]
+	sub	bx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_471
+.LBB0_472:
+	cmp	rdi, 3
+	jb	.LBB0_537
+	.p2align	4, 0x90
+.LBB0_473:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_473
+	jmp	.LBB0_537
+.LBB0_507:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_512
+# %bb.508:
+	and	al, dil
+	jne	.LBB0_512
+# %bb.509:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB0_510:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_510
+# %bb.511:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_512:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_514
+	.p2align	4, 0x90
+.LBB0_513:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, qword ptr [rdx + 8*rsi]
+	sub	rbx, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rbx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_513
+.LBB0_514:
+	cmp	rdi, 3
+	jb	.LBB0_537
+	.p2align	4, 0x90
+.LBB0_515:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_515
+	jmp	.LBB0_537
+.LBB0_519:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_524
+# %bb.520:
+	and	al, dil
+	jne	.LBB0_524
+# %bb.521:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB0_522:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vsubps	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
+	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vsubps	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vsubps	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_522
+# %bb.523:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_524:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_526
+	.p2align	4, 0x90
+.LBB0_525:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_525
+.LBB0_526:
+	cmp	rdi, 3
+	jb	.LBB0_537
+	.p2align	4, 0x90
+.LBB0_527:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_527
+	jmp	.LBB0_537
+.LBB0_432:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_437
+# %bb.433:
+	and	al, dil
+	jne	.LBB0_437
+# %bb.434:
+	mov	esi, r10d
+	and	esi, -128
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB0_435:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
+	sub	rdi, -128
+	cmp	rsi, rdi
+	jne	.LBB0_435
+# %bb.436:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_437:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_439
+	.p2align	4, 0x90
+.LBB0_438:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, byte ptr [rdx + rsi]
+	sub	bl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], bl
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_438
+.LBB0_439:
+	cmp	rdi, 3
+	jb	.LBB0_537
+	.p2align	4, 0x90
+.LBB0_440:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_440
+	jmp	.LBB0_537
+.LBB0_486:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_491
+# %bb.487:
+	and	al, dil
+	jne	.LBB0_491
+# %bb.488:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+	.p2align	4, 0x90
+.LBB0_489:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_489
+# %bb.490:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_491:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_493
+	.p2align	4, 0x90
+.LBB0_492:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, dword ptr [rdx + 4*rsi]
+	sub	ebx, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], ebx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_492
+.LBB0_493:
+	cmp	rdi, 3
+	jb	.LBB0_537
+	.p2align	4, 0x90
+.LBB0_494:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_494
+	jmp	.LBB0_537
+.LBB0_208:
+	lea	rsi, [r8 + 4*r11]
+	lea	rax, [rdx + 4*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_213
+# %bb.209:
+	and	al, r10b
+	jne	.LBB0_213
+# %bb.210:
+	mov	esi, r11d
+	and	esi, -32
+	xor	eax, eax
+.LBB0_211:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rax]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rax + 96]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rax]
+	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rax + 32]
+	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rax + 64]
+	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm3
+	add	rax, 32
+	cmp	rsi, rax
+	jne	.LBB0_211
+# %bb.212:
+	cmp	rsi, r11
+	jne	.LBB0_213
+	jmp	.LBB0_271
+.LBB0_262:
+	lea	rsi, [r8 + 8*r11]
+	lea	rax, [rdx + 8*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_267
+# %bb.263:
+	and	al, r10b
+	jne	.LBB0_267
+# %bb.264:
+	mov	esi, r11d
+	and	esi, -16
+	xor	eax, eax
+.LBB0_265:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rcx + 8*rax]
+	vmovupd	ymm1, ymmword ptr [rcx + 8*rax + 32]
+	vmovupd	ymm2, ymmword ptr [rcx + 8*rax + 64]
+	vmovupd	ymm3, ymmword ptr [rcx + 8*rax + 96]
+	vaddpd	ymm0, ymm0, ymmword ptr [rdx + 8*rax]
+	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rax + 32]
+	vaddpd	ymm2, ymm2, ymmword ptr [rdx + 8*rax + 64]
+	vaddpd	ymm3, ymm3, ymmword ptr [rdx + 8*rax + 96]
+	vmovupd	ymmword ptr [r8 + 8*rax], ymm0
+	vmovupd	ymmword ptr [r8 + 8*rax + 32], ymm1
+	vmovupd	ymmword ptr [r8 + 8*rax + 64], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rax + 96], ymm3
+	add	rax, 16
+	cmp	rsi, rax
+	jne	.LBB0_265
+# %bb.266:
+	cmp	rsi, r11
+	jne	.LBB0_267
+	jmp	.LBB0_271
+.LBB0_175:
+	lea	rsi, [r8 + r11]
+	lea	rax, [rdx + r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_180
+# %bb.176:
+	and	al, r10b
+	jne	.LBB0_180
+# %bb.177:
+	mov	esi, r11d
+	and	esi, -128
+	xor	eax, eax
+.LBB0_178:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + rax]
+	vmovdqu	ymm1, ymmword ptr [rcx + rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + rax + 96]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rax]
+	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rax + 32]
+	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rax + 64]
+	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rax + 96]
+	vmovdqu	ymmword ptr [r8 + rax], ymm0
+	vmovdqu	ymmword ptr [r8 + rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rax + 96], ymm3
+	sub	rax, -128
+	cmp	rsi, rax
+	jne	.LBB0_178
+# %bb.179:
+	cmp	rsi, r11
+	jne	.LBB0_180
+	jmp	.LBB0_271
+.LBB0_229:
+	lea	rsi, [r8 + 8*r11]
+	lea	rax, [rdx + 8*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_234
+# %bb.230:
+	and	al, r10b
+	jne	.LBB0_234
+# %bb.231:
+	mov	esi, r11d
+	and	esi, -16
+	xor	eax, eax
+.LBB0_232:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 8*rax]
+	vmovdqu	ymm1, ymmword ptr [rcx + 8*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rax + 96]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rax]
+	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rax + 32]
+	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rax + 64]
+	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm3
+	add	rax, 16
+	cmp	rsi, rax
+	jne	.LBB0_232
+# %bb.233:
+	cmp	rsi, r11
+	jne	.LBB0_234
+	jmp	.LBB0_271
+.LBB0_187:
+	lea	rsi, [r8 + 2*r11]
+	lea	rax, [rdx + 2*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 2*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_192
+# %bb.188:
+	and	al, r10b
+	jne	.LBB0_192
+# %bb.189:
+	mov	esi, r11d
+	and	esi, -64
+	xor	eax, eax
+.LBB0_190:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rax]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rax + 96]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rax]
+	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rax + 32]
+	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rax + 64]
+	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rax + 96], ymm3
+	add	rax, 64
+	cmp	rsi, rax
+	jne	.LBB0_190
+# %bb.191:
+	cmp	rsi, r11
+	jne	.LBB0_192
+	jmp	.LBB0_271
+.LBB0_199:
+	lea	rsi, [r8 + 2*r11]
+	lea	rax, [rdx + 2*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 2*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_204
+# %bb.200:
+	and	al, r10b
+	jne	.LBB0_204
+# %bb.201:
+	mov	esi, r11d
+	and	esi, -64
+	xor	eax, eax
+.LBB0_202:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rax]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rax + 96]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rax]
+	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rax + 32]
+	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rax + 64]
+	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rax + 96], ymm3
+	add	rax, 64
+	cmp	rsi, rax
+	jne	.LBB0_202
+# %bb.203:
+	cmp	rsi, r11
+	jne	.LBB0_204
+	jmp	.LBB0_271
+.LBB0_241:
+	lea	rsi, [r8 + 8*r11]
+	lea	rax, [rdx + 8*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_246
+# %bb.242:
+	and	al, r10b
+	jne	.LBB0_246
+# %bb.243:
+	mov	esi, r11d
+	and	esi, -16
+	xor	eax, eax
+.LBB0_244:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 8*rax]
+	vmovdqu	ymm1, ymmword ptr [rcx + 8*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rax + 96]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rax]
+	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rax + 32]
+	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rax + 64]
+	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm3
+	add	rax, 16
+	cmp	rsi, rax
+	jne	.LBB0_244
+# %bb.245:
+	cmp	rsi, r11
+	jne	.LBB0_246
+	jmp	.LBB0_271
+.LBB0_253:
+	lea	rsi, [r8 + 4*r11]
+	lea	rax, [rdx + 4*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_258
+# %bb.254:
+	and	al, r10b
+	jne	.LBB0_258
+# %bb.255:
+	mov	esi, r11d
+	and	esi, -32
+	xor	eax, eax
+.LBB0_256:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rcx + 4*rax]
+	vmovups	ymm1, ymmword ptr [rcx + 4*rax + 32]
+	vmovups	ymm2, ymmword ptr [rcx + 4*rax + 64]
+	vmovups	ymm3, ymmword ptr [rcx + 4*rax + 96]
+	vaddps	ymm0, ymm0, ymmword ptr [rdx + 4*rax]
+	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rax + 32]
+	vaddps	ymm2, ymm2, ymmword ptr [rdx + 4*rax + 64]
+	vaddps	ymm3, ymm3, ymmword ptr [rdx + 4*rax + 96]
+	vmovups	ymmword ptr [r8 + 4*rax], ymm0
+	vmovups	ymmword ptr [r8 + 4*rax + 32], ymm1
+	vmovups	ymmword ptr [r8 + 4*rax + 64], ymm2
+	vmovups	ymmword ptr [r8 + 4*rax + 96], ymm3
+	add	rax, 32
+	cmp	rsi, rax
+	jne	.LBB0_256
+# %bb.257:
+	cmp	rsi, r11
+	jne	.LBB0_258
+	jmp	.LBB0_271
+.LBB0_166:
+	lea	rsi, [r8 + r11]
+	lea	rax, [rdx + r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_171
+# %bb.167:
+	and	al, r10b
+	jne	.LBB0_171
+# %bb.168:
+	mov	esi, r11d
+	and	esi, -128
+	xor	eax, eax
+.LBB0_169:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + rax]
+	vmovdqu	ymm1, ymmword ptr [rcx + rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + rax + 96]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rax]
+	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rax + 32]
+	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rax + 64]
+	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rax + 96]
+	vmovdqu	ymmword ptr [r8 + rax], ymm0
+	vmovdqu	ymmword ptr [r8 + rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rax + 96], ymm3
+	sub	rax, -128
+	cmp	rsi, rax
+	jne	.LBB0_169
+# %bb.170:
+	cmp	rsi, r11
+	jne	.LBB0_171
+	jmp	.LBB0_271
+.LBB0_220:
+	lea	rsi, [r8 + 4*r11]
+	lea	rax, [rdx + 4*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_225
+# %bb.221:
+	and	al, r10b
+	jne	.LBB0_225
+# %bb.222:
+	mov	esi, r11d
+	and	esi, -32
+	xor	eax, eax
+.LBB0_223:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rax]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rax + 96]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rax]
+	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rax + 32]
+	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rax + 64]
+	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm3
+	add	rax, 32
+	cmp	rsi, rax
+	jne	.LBB0_223
+# %bb.224:
+	cmp	rsi, r11
+	jne	.LBB0_225
+.LBB0_271:
+	cmp	edi, 6
+	jg	.LBB0_284
+# %bb.272:
+	cmp	edi, 3
+	jle	.LBB0_273
+# %bb.278:
+	cmp	edi, 4
+	je	.LBB0_317
+# %bb.279:
+	cmp	edi, 5
+	je	.LBB0_329
+# %bb.280:
+	cmp	edi, 6
+	jne	.LBB0_404
+# %bb.281:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.282:
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_341
+# %bb.283:
+	xor	esi, esi
+	jmp	.LBB0_346
+.LBB0_284:
+	cmp	edi, 8
+	jle	.LBB0_285
+# %bb.290:
+	cmp	edi, 9
+	je	.LBB0_371
+# %bb.291:
+	cmp	edi, 11
+	je	.LBB0_383
+# %bb.292:
+	cmp	edi, 12
+	jne	.LBB0_404
+# %bb.293:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.294:
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_395
+# %bb.295:
+	xor	esi, esi
+	jmp	.LBB0_400
+.LBB0_273:
+	cmp	edi, 2
+	je	.LBB0_296
+# %bb.274:
+	cmp	edi, 3
+	jne	.LBB0_404
+# %bb.275:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.276:
+	mov	r11d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_308
+# %bb.277:
+	xor	esi, esi
+	jmp	.LBB0_313
+.LBB0_285:
+	cmp	edi, 7
+	je	.LBB0_350
+# %bb.286:
+	cmp	edi, 8
+	jne	.LBB0_404
+# %bb.287:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.288:
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_362
+# %bb.289:
+	xor	esi, esi
+	jmp	.LBB0_367
+.LBB0_317:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.318:
+	mov	r11d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_320
+# %bb.319:
+	xor	esi, esi
+	jmp	.LBB0_325
+.LBB0_329:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.330:
+	mov	r11d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_332
+# %bb.331:
+	xor	esi, esi
+	jmp	.LBB0_337
+.LBB0_371:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.372:
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_374
+# %bb.373:
+	xor	esi, esi
+	jmp	.LBB0_379
+.LBB0_383:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.384:
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_386
+# %bb.385:
+	xor	esi, esi
+	jmp	.LBB0_391
+.LBB0_296:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.297:
+	mov	r11d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_299
+# %bb.298:
+	xor	esi, esi
+	jmp	.LBB0_304
+.LBB0_350:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.351:
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_353
+# %bb.352:
+	xor	esi, esi
+	jmp	.LBB0_358
+.LBB0_537:
+	lea	rsp, [rbp - 16]
+	pop	rbx
+	pop	r14
+	pop	rbp
+	vzeroupper
+	ret
+.LBB0_341:
+	lea	rsi, [r8 + 4*r11]
+	lea	rax, [rdx + 4*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_346
+# %bb.342:
+	and	al, r10b
+	jne	.LBB0_346
+# %bb.343:
+	mov	esi, r11d
+	and	esi, -32
+	xor	eax, eax
+.LBB0_344:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rax]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rax + 96]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rax]
+	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rax + 32]
+	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rax + 64]
+	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm3
+	add	rax, 32
+	cmp	rsi, rax
+	jne	.LBB0_344
+# %bb.345:
+	cmp	rsi, r11
+	je	.LBB0_404
+.LBB0_346:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_348
+	.p2align	4, 0x90
+.LBB0_347:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, dword ptr [rdx + 4*rsi]
+	sub	ebx, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], ebx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_347
+.LBB0_348:
+	cmp	r10, 3
+	jb	.LBB0_404
+	.p2align	4, 0x90
+.LBB0_349:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_349
+	jmp	.LBB0_404
+.LBB0_395:
+	lea	rsi, [r8 + 8*r11]
+	lea	rax, [rdx + 8*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_400
+# %bb.396:
+	and	al, r10b
+	jne	.LBB0_400
+# %bb.397:
+	mov	esi, r11d
+	and	esi, -16
+	xor	eax, eax
+.LBB0_398:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rax]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rax + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rax + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rax + 96]
+	vsubpd	ymm0, ymm0, ymmword ptr [rcx + 8*rax]
+	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rax + 32]
+	vsubpd	ymm2, ymm2, ymmword ptr [rcx + 8*rax + 64]
+	vsubpd	ymm3, ymm3, ymmword ptr [rcx + 8*rax + 96]
+	vmovupd	ymmword ptr [r8 + 8*rax], ymm0
+	vmovupd	ymmword ptr [r8 + 8*rax + 32], ymm1
+	vmovupd	ymmword ptr [r8 + 8*rax + 64], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rax + 96], ymm3
+	add	rax, 16
+	cmp	rsi, rax
+	jne	.LBB0_398
+# %bb.399:
+	cmp	rsi, r11
+	je	.LBB0_404
+.LBB0_400:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_402
+	.p2align	4, 0x90
+.LBB0_401:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_401
+.LBB0_402:
+	cmp	r10, 3
+	jb	.LBB0_404
+	.p2align	4, 0x90
+.LBB0_403:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_403
+	jmp	.LBB0_404
+.LBB0_308:
+	lea	rsi, [r8 + r11]
+	lea	rax, [rdx + r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_313
+# %bb.309:
+	and	al, r10b
+	jne	.LBB0_313
+# %bb.310:
+	mov	esi, r11d
+	and	esi, -128
+	xor	eax, eax
+.LBB0_311:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + rax]
+	vmovdqu	ymm1, ymmword ptr [rdx + rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + rax + 96]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rax]
+	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rax + 32]
+	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rax + 64]
+	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rax + 96]
+	vmovdqu	ymmword ptr [r8 + rax], ymm0
+	vmovdqu	ymmword ptr [r8 + rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rax + 96], ymm3
+	sub	rax, -128
+	cmp	rsi, rax
+	jne	.LBB0_311
+# %bb.312:
+	cmp	rsi, r11
+	je	.LBB0_404
+.LBB0_313:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_315
+	.p2align	4, 0x90
+.LBB0_314:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, byte ptr [rdx + rsi]
+	sub	bl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], bl
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_314
+.LBB0_315:
+	cmp	r10, 3
+	jb	.LBB0_404
+	.p2align	4, 0x90
+.LBB0_316:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_316
+	jmp	.LBB0_404
+.LBB0_362:
+	lea	rsi, [r8 + 8*r11]
+	lea	rax, [rdx + 8*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_367
+# %bb.363:
+	and	al, r10b
+	jne	.LBB0_367
+# %bb.364:
+	mov	esi, r11d
+	and	esi, -16
+	xor	eax, eax
+.LBB0_365:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rax]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rax + 96]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rax]
+	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rax + 32]
+	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rax + 64]
+	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm3
+	add	rax, 16
+	cmp	rsi, rax
+	jne	.LBB0_365
+# %bb.366:
+	cmp	rsi, r11
+	je	.LBB0_404
+.LBB0_367:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_369
+	.p2align	4, 0x90
+.LBB0_368:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, qword ptr [rdx + 8*rsi]
+	sub	rbx, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rbx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_368
+.LBB0_369:
+	cmp	r10, 3
+	jb	.LBB0_404
+	.p2align	4, 0x90
+.LBB0_370:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_370
+	jmp	.LBB0_404
+.LBB0_320:
+	lea	rsi, [r8 + 2*r11]
+	lea	rax, [rdx + 2*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 2*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_325
+# %bb.321:
+	and	al, r10b
+	jne	.LBB0_325
+# %bb.322:
+	mov	esi, r11d
+	and	esi, -64
+	xor	eax, eax
+.LBB0_323:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 2*rax]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 2*rax + 96]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rax]
+	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rax + 32]
+	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rax + 64]
+	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rax + 96], ymm3
+	add	rax, 64
+	cmp	rsi, rax
+	jne	.LBB0_323
+# %bb.324:
+	cmp	rsi, r11
+	je	.LBB0_404
+.LBB0_325:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_327
+	.p2align	4, 0x90
+.LBB0_326:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rdx + 2*rsi]
+	sub	bx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_326
+.LBB0_327:
+	cmp	r10, 3
+	jb	.LBB0_404
+	.p2align	4, 0x90
+.LBB0_328:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_328
+	jmp	.LBB0_404
+.LBB0_332:
+	lea	rsi, [r8 + 2*r11]
+	lea	rax, [rdx + 2*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 2*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_337
+# %bb.333:
+	and	al, r10b
+	jne	.LBB0_337
+# %bb.334:
+	mov	esi, r11d
+	and	esi, -64
+	xor	eax, eax
+.LBB0_335:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 2*rax]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 2*rax + 96]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rax]
+	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rax + 32]
+	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rax + 64]
+	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rax + 96], ymm3
+	add	rax, 64
+	cmp	rsi, rax
+	jne	.LBB0_335
+# %bb.336:
+	cmp	rsi, r11
+	je	.LBB0_404
+.LBB0_337:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_339
+	.p2align	4, 0x90
+.LBB0_338:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rdx + 2*rsi]
+	sub	bx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_338
+.LBB0_339:
+	cmp	r10, 3
+	jb	.LBB0_404
+	.p2align	4, 0x90
+.LBB0_340:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_340
+	jmp	.LBB0_404
+.LBB0_374:
+	lea	rsi, [r8 + 8*r11]
+	lea	rax, [rdx + 8*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_379
+# %bb.375:
+	and	al, r10b
+	jne	.LBB0_379
+# %bb.376:
+	mov	esi, r11d
+	and	esi, -16
+	xor	eax, eax
+.LBB0_377:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rax]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rax + 96]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rax]
+	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rax + 32]
+	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rax + 64]
+	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm3
+	add	rax, 16
+	cmp	rsi, rax
+	jne	.LBB0_377
+# %bb.378:
+	cmp	rsi, r11
+	je	.LBB0_404
+.LBB0_379:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_381
+	.p2align	4, 0x90
+.LBB0_380:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, qword ptr [rdx + 8*rsi]
+	sub	rbx, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rbx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_380
+.LBB0_381:
+	cmp	r10, 3
+	jb	.LBB0_404
+	.p2align	4, 0x90
+.LBB0_382:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_382
+	jmp	.LBB0_404
+.LBB0_386:
+	lea	rsi, [r8 + 4*r11]
+	lea	rax, [rdx + 4*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_391
+# %bb.387:
+	and	al, r10b
+	jne	.LBB0_391
+# %bb.388:
+	mov	esi, r11d
+	and	esi, -32
+	xor	eax, eax
+.LBB0_389:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 4*rax]
+	vmovups	ymm1, ymmword ptr [rdx + 4*rax + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 4*rax + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rax + 96]
+	vsubps	ymm0, ymm0, ymmword ptr [rcx + 4*rax]
+	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rax + 32]
+	vsubps	ymm2, ymm2, ymmword ptr [rcx + 4*rax + 64]
+	vsubps	ymm3, ymm3, ymmword ptr [rcx + 4*rax + 96]
+	vmovups	ymmword ptr [r8 + 4*rax], ymm0
+	vmovups	ymmword ptr [r8 + 4*rax + 32], ymm1
+	vmovups	ymmword ptr [r8 + 4*rax + 64], ymm2
+	vmovups	ymmword ptr [r8 + 4*rax + 96], ymm3
+	add	rax, 32
+	cmp	rsi, rax
+	jne	.LBB0_389
+# %bb.390:
+	cmp	rsi, r11
+	je	.LBB0_404
+.LBB0_391:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_393
+	.p2align	4, 0x90
+.LBB0_392:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_392
+.LBB0_393:
+	cmp	r10, 3
+	jb	.LBB0_404
+	.p2align	4, 0x90
+.LBB0_394:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_394
+	jmp	.LBB0_404
+.LBB0_299:
+	lea	rsi, [r8 + r11]
+	lea	rax, [rdx + r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_304
+# %bb.300:
+	and	al, r10b
+	jne	.LBB0_304
+# %bb.301:
+	mov	esi, r11d
+	and	esi, -128
+	xor	eax, eax
+.LBB0_302:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + rax]
+	vmovdqu	ymm1, ymmword ptr [rdx + rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + rax + 96]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rax]
+	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rax + 32]
+	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rax + 64]
+	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rax + 96]
+	vmovdqu	ymmword ptr [r8 + rax], ymm0
+	vmovdqu	ymmword ptr [r8 + rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rax + 96], ymm3
+	sub	rax, -128
+	cmp	rsi, rax
+	jne	.LBB0_302
+# %bb.303:
+	cmp	rsi, r11
+	je	.LBB0_404
+.LBB0_304:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_306
+	.p2align	4, 0x90
+.LBB0_305:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, byte ptr [rdx + rsi]
+	sub	bl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], bl
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_305
+.LBB0_306:
+	cmp	r10, 3
+	jb	.LBB0_404
+	.p2align	4, 0x90
+.LBB0_307:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_307
+	jmp	.LBB0_404
+.LBB0_353:
+	lea	rsi, [r8 + 4*r11]
+	lea	rax, [rdx + 4*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_358
+# %bb.354:
+	and	al, r10b
+	jne	.LBB0_358
+# %bb.355:
+	mov	esi, r11d
+	and	esi, -32
+	xor	eax, eax
+.LBB0_356:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rax]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rax + 96]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rax]
+	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rax + 32]
+	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rax + 64]
+	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm3
+	add	rax, 32
+	cmp	rsi, rax
+	jne	.LBB0_356
+# %bb.357:
+	cmp	rsi, r11
+	je	.LBB0_404
+.LBB0_358:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_360
+	.p2align	4, 0x90
+.LBB0_359:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, dword ptr [rdx + 4*rsi]
+	sub	ebx, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], ebx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_359
+.LBB0_360:
+	cmp	r10, 3
+	jb	.LBB0_404
+	.p2align	4, 0x90
+.LBB0_361:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_361
+	jmp	.LBB0_404
+.LBB0_75:
+	lea	rsi, [r8 + 4*r11]
+	lea	rax, [rdx + 4*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_80
+# %bb.76:
+	and	al, r10b
+	jne	.LBB0_80
+# %bb.77:
+	mov	esi, r11d
+	and	esi, -32
+	xor	eax, eax
+.LBB0_78:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rax]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rax + 96]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rax]
+	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rax + 32]
+	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rax + 64]
+	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm3
+	add	rax, 32
+	cmp	rsi, rax
+	jne	.LBB0_78
+# %bb.79:
+	cmp	rsi, r11
+	je	.LBB0_138
+.LBB0_80:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_82
+.LBB0_81:                               # =>This Inner Loop Header: Depth=1
+	mov	ebx, dword ptr [rcx + 4*rsi]
+	add	ebx, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], ebx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_81
+.LBB0_82:
+	cmp	r10, 3
+	jb	.LBB0_138
+.LBB0_83:                               # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_83
+	jmp	.LBB0_138
+.LBB0_129:
+	lea	rsi, [r8 + 8*r11]
+	lea	rax, [rdx + 8*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_134
+# %bb.130:
+	and	al, r10b
+	jne	.LBB0_134
+# %bb.131:
+	mov	esi, r11d
+	and	esi, -16
+	xor	eax, eax
+.LBB0_132:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rcx + 8*rax]
+	vmovupd	ymm1, ymmword ptr [rcx + 8*rax + 32]
+	vmovupd	ymm2, ymmword ptr [rcx + 8*rax + 64]
+	vmovupd	ymm3, ymmword ptr [rcx + 8*rax + 96]
+	vaddpd	ymm0, ymm0, ymmword ptr [rdx + 8*rax]
+	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rax + 32]
+	vaddpd	ymm2, ymm2, ymmword ptr [rdx + 8*rax + 64]
+	vaddpd	ymm3, ymm3, ymmword ptr [rdx + 8*rax + 96]
+	vmovupd	ymmword ptr [r8 + 8*rax], ymm0
+	vmovupd	ymmword ptr [r8 + 8*rax + 32], ymm1
+	vmovupd	ymmword ptr [r8 + 8*rax + 64], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rax + 96], ymm3
+	add	rax, 16
+	cmp	rsi, rax
+	jne	.LBB0_132
+# %bb.133:
+	cmp	rsi, r11
+	je	.LBB0_138
+.LBB0_134:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_136
+.LBB0_135:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_135
+.LBB0_136:
+	cmp	r10, 3
+	jb	.LBB0_138
+.LBB0_137:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_137
+	jmp	.LBB0_138
+.LBB0_42:
+	lea	rsi, [r8 + r11]
+	lea	rax, [rdx + r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_47
+# %bb.43:
+	and	al, r10b
+	jne	.LBB0_47
+# %bb.44:
+	mov	esi, r11d
+	and	esi, -128
+	xor	eax, eax
+.LBB0_45:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + rax]
+	vmovdqu	ymm1, ymmword ptr [rcx + rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + rax + 96]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rax]
+	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rax + 32]
+	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rax + 64]
+	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rax + 96]
+	vmovdqu	ymmword ptr [r8 + rax], ymm0
+	vmovdqu	ymmword ptr [r8 + rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rax + 96], ymm3
+	sub	rax, -128
+	cmp	rsi, rax
+	jne	.LBB0_45
+# %bb.46:
+	cmp	rsi, r11
+	je	.LBB0_138
+.LBB0_47:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_49
+.LBB0_48:                               # =>This Inner Loop Header: Depth=1
+	movzx	ebx, byte ptr [rcx + rsi]
+	add	bl, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], bl
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_48
+.LBB0_49:
+	cmp	r10, 3
+	jb	.LBB0_138
+.LBB0_50:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_50
+	jmp	.LBB0_138
+.LBB0_96:
+	lea	rsi, [r8 + 8*r11]
+	lea	rax, [rdx + 8*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_101
+# %bb.97:
+	and	al, r10b
+	jne	.LBB0_101
+# %bb.98:
+	mov	esi, r11d
+	and	esi, -16
+	xor	eax, eax
+.LBB0_99:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 8*rax]
+	vmovdqu	ymm1, ymmword ptr [rcx + 8*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rax + 96]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rax]
+	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rax + 32]
+	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rax + 64]
+	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm3
+	add	rax, 16
+	cmp	rsi, rax
+	jne	.LBB0_99
+# %bb.100:
+	cmp	rsi, r11
+	je	.LBB0_138
+.LBB0_101:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_103
+.LBB0_102:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, qword ptr [rcx + 8*rsi]
+	add	rbx, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rbx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_102
+.LBB0_103:
+	cmp	r10, 3
+	jb	.LBB0_138
+.LBB0_104:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_104
+	jmp	.LBB0_138
+.LBB0_54:
+	lea	rsi, [r8 + 2*r11]
+	lea	rax, [rdx + 2*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 2*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_59
+# %bb.55:
+	and	al, r10b
+	jne	.LBB0_59
+# %bb.56:
+	mov	esi, r11d
+	and	esi, -64
+	xor	eax, eax
+.LBB0_57:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rax]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rax + 96]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rax]
+	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rax + 32]
+	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rax + 64]
+	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rax + 96], ymm3
+	add	rax, 64
+	cmp	rsi, rax
+	jne	.LBB0_57
+# %bb.58:
+	cmp	rsi, r11
+	je	.LBB0_138
+.LBB0_59:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_61
+.LBB0_60:                               # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rcx + 2*rsi]
+	add	bx, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_60
+.LBB0_61:
+	cmp	r10, 3
+	jb	.LBB0_138
+.LBB0_62:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_62
+	jmp	.LBB0_138
+.LBB0_66:
+	lea	rsi, [r8 + 2*r11]
+	lea	rax, [rdx + 2*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 2*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_71
+# %bb.67:
+	and	al, r10b
+	jne	.LBB0_71
+# %bb.68:
+	mov	esi, r11d
+	and	esi, -64
+	xor	eax, eax
+.LBB0_69:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rax]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rax + 96]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rax]
+	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rax + 32]
+	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rax + 64]
+	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rax + 96], ymm3
+	add	rax, 64
+	cmp	rsi, rax
+	jne	.LBB0_69
+# %bb.70:
+	cmp	rsi, r11
+	je	.LBB0_138
+.LBB0_71:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_73
+.LBB0_72:                               # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rcx + 2*rsi]
+	add	bx, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_72
+.LBB0_73:
+	cmp	r10, 3
+	jb	.LBB0_138
+.LBB0_74:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_74
+	jmp	.LBB0_138
+.LBB0_108:
+	lea	rsi, [r8 + 8*r11]
+	lea	rax, [rdx + 8*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_113
+# %bb.109:
+	and	al, r10b
+	jne	.LBB0_113
+# %bb.110:
+	mov	esi, r11d
+	and	esi, -16
+	xor	eax, eax
+.LBB0_111:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 8*rax]
+	vmovdqu	ymm1, ymmword ptr [rcx + 8*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rax + 96]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rax]
+	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rax + 32]
+	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rax + 64]
+	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm3
+	add	rax, 16
+	cmp	rsi, rax
+	jne	.LBB0_111
+# %bb.112:
+	cmp	rsi, r11
+	je	.LBB0_138
+.LBB0_113:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_115
+.LBB0_114:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, qword ptr [rcx + 8*rsi]
+	add	rbx, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rbx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_114
+.LBB0_115:
+	cmp	r10, 3
+	jb	.LBB0_138
+.LBB0_116:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_116
+	jmp	.LBB0_138
+.LBB0_120:
+	lea	rsi, [r8 + 4*r11]
+	lea	rax, [rdx + 4*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_125
+# %bb.121:
+	and	al, r10b
+	jne	.LBB0_125
+# %bb.122:
+	mov	esi, r11d
+	and	esi, -32
+	xor	eax, eax
+.LBB0_123:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rcx + 4*rax]
+	vmovups	ymm1, ymmword ptr [rcx + 4*rax + 32]
+	vmovups	ymm2, ymmword ptr [rcx + 4*rax + 64]
+	vmovups	ymm3, ymmword ptr [rcx + 4*rax + 96]
+	vaddps	ymm0, ymm0, ymmword ptr [rdx + 4*rax]
+	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rax + 32]
+	vaddps	ymm2, ymm2, ymmword ptr [rdx + 4*rax + 64]
+	vaddps	ymm3, ymm3, ymmword ptr [rdx + 4*rax + 96]
+	vmovups	ymmword ptr [r8 + 4*rax], ymm0
+	vmovups	ymmword ptr [r8 + 4*rax + 32], ymm1
+	vmovups	ymmword ptr [r8 + 4*rax + 64], ymm2
+	vmovups	ymmword ptr [r8 + 4*rax + 96], ymm3
+	add	rax, 32
+	cmp	rsi, rax
+	jne	.LBB0_123
+# %bb.124:
+	cmp	rsi, r11
+	je	.LBB0_138
+.LBB0_125:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_127
+.LBB0_126:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_126
+.LBB0_127:
+	cmp	r10, 3
+	jb	.LBB0_138
+.LBB0_128:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_128
+	jmp	.LBB0_138
+.LBB0_33:
+	lea	rsi, [r8 + r11]
+	lea	rax, [rdx + r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_38
+# %bb.34:
+	and	al, r10b
+	jne	.LBB0_38
+# %bb.35:
+	mov	esi, r11d
+	and	esi, -128
+	xor	eax, eax
+.LBB0_36:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + rax]
+	vmovdqu	ymm1, ymmword ptr [rcx + rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + rax + 96]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rax]
+	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rax + 32]
+	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rax + 64]
+	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rax + 96]
+	vmovdqu	ymmword ptr [r8 + rax], ymm0
+	vmovdqu	ymmword ptr [r8 + rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rax + 96], ymm3
+	sub	rax, -128
+	cmp	rsi, rax
+	jne	.LBB0_36
+# %bb.37:
+	cmp	rsi, r11
+	je	.LBB0_138
+.LBB0_38:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_40
+.LBB0_39:                               # =>This Inner Loop Header: Depth=1
+	movzx	ebx, byte ptr [rcx + rsi]
+	add	bl, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], bl
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_39
+.LBB0_40:
+	cmp	r10, 3
+	jb	.LBB0_138
+.LBB0_41:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_41
+	jmp	.LBB0_138
+.LBB0_87:
+	lea	rsi, [r8 + 4*r11]
+	lea	rax, [rdx + 4*r11]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r11]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r10b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_92
+# %bb.88:
+	and	al, r10b
+	jne	.LBB0_92
+# %bb.89:
+	mov	esi, r11d
+	and	esi, -32
+	xor	eax, eax
+.LBB0_90:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rax]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rax + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rax + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rax + 96]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rax]
+	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rax + 32]
+	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rax + 64]
+	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rax + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rax], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm3
+	add	rax, 32
+	cmp	rsi, rax
+	jne	.LBB0_90
+# %bb.91:
+	cmp	rsi, r11
+	je	.LBB0_138
+.LBB0_92:
+	mov	r10, rsi
+	not	r10
+	add	r10, r11
+	mov	rax, r11
+	and	rax, 3
+	je	.LBB0_94
+.LBB0_93:                               # =>This Inner Loop Header: Depth=1
+	mov	ebx, dword ptr [rcx + 4*rsi]
+	add	ebx, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], ebx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_93
+.LBB0_94:
+	cmp	r10, 3
+	jb	.LBB0_138
+.LBB0_95:                               # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB0_95
+	jmp	.LBB0_138
+.Lfunc_end0:
+	.size	arithmetic_avx2, .Lfunc_end0-arithmetic_avx2
+                                        # -- End function
+	.globl	arithmetic_arr_scalar_avx2      # -- Begin function arithmetic_arr_scalar_avx2
+	.p2align	4, 0x90
+	.type	arithmetic_arr_scalar_avx2,@function
+arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r14
+	push	rbx
+	and	rsp, -8
+	cmp	sil, 1
+	jg	.LBB1_11
+# %bb.1:
+	test	sil, sil
+	je	.LBB1_28
+# %bb.2:
+	cmp	sil, 1
+	jne	.LBB1_517
+.LBB1_3:
+	cmp	edi, 6
+	jg	.LBB1_36
+# %bb.4:
+	cmp	edi, 3
+	jle	.LBB1_60
+# %bb.5:
+	cmp	edi, 4
+	je	.LBB1_98
+# %bb.6:
+	cmp	edi, 5
+	je	.LBB1_101
+# %bb.7:
+	cmp	edi, 6
+	jne	.LBB1_474
+# %bb.8:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.9:
+	mov	r14d, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_10
+# %bb.164:
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB1_254
+# %bb.165:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_254
+.LBB1_10:
+	xor	esi, esi
+.LBB1_398:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_400
+	.p2align	4, 0x90
+.LBB1_399:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_399
+.LBB1_400:
+	cmp	r11, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_401:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_401
+	jmp	.LBB1_474
+.LBB1_11:
+	cmp	sil, 2
+	je	.LBB1_474
+# %bb.12:
+	cmp	sil, 3
+	jne	.LBB1_517
+.LBB1_13:
+	cmp	edi, 6
+	jg	.LBB1_21
+# %bb.14:
+	cmp	edi, 3
+	jle	.LBB1_50
+# %bb.15:
+	cmp	edi, 4
+	je	.LBB1_70
+# %bb.16:
+	cmp	edi, 5
+	je	.LBB1_73
+# %bb.17:
+	cmp	edi, 6
+	jne	.LBB1_517
+# %bb.18:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.19:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_20
+# %bb.134:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_194
+# %bb.135:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_194
+.LBB1_20:
+	xor	esi, esi
+.LBB1_318:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_320
+	.p2align	4, 0x90
+.LBB1_319:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, dword ptr [rdx + 4*rsi]
+	sub	ebx, eax
+	mov	dword ptr [r8 + 4*rsi], ebx
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_319
+.LBB1_320:
+	cmp	rdi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_321:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_321
+	jmp	.LBB1_517
+.LBB1_21:
+	cmp	edi, 8
+	jle	.LBB1_55
+# %bb.22:
+	cmp	edi, 9
+	je	.LBB1_76
+# %bb.23:
+	cmp	edi, 11
+	je	.LBB1_79
+# %bb.24:
+	cmp	edi, 12
+	jne	.LBB1_517
+# %bb.25:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.26:
+	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB1_27
+# %bb.137:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_197
+# %bb.138:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_197
+.LBB1_27:
+	xor	ecx, ecx
+.LBB1_326:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_328
+	.p2align	4, 0x90
+.LBB1_327:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_327
+.LBB1_328:
+	cmp	rsi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_329:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_329
+	jmp	.LBB1_517
+.LBB1_28:
+	cmp	edi, 6
+	jg	.LBB1_43
+# %bb.29:
+	cmp	edi, 3
+	jle	.LBB1_88
+# %bb.30:
+	cmp	edi, 4
+	je	.LBB1_116
+# %bb.31:
+	cmp	edi, 5
+	je	.LBB1_119
+# %bb.32:
+	cmp	edi, 6
+	jne	.LBB1_3
+# %bb.33:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.34:
+	mov	r14d, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_35
+# %bb.224:
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB1_284
+# %bb.225:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_284
+.LBB1_35:
+	xor	esi, esi
+.LBB1_662:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_664
+.LBB1_663:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_663
+.LBB1_664:
+	cmp	r11, 3
+	jb	.LBB1_3
+.LBB1_665:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_665
+	jmp	.LBB1_3
+.LBB1_36:
+	cmp	edi, 8
+	jle	.LBB1_65
+# %bb.37:
+	cmp	edi, 9
+	je	.LBB1_104
+# %bb.38:
+	cmp	edi, 11
+	je	.LBB1_107
+# %bb.39:
+	cmp	edi, 12
+	jne	.LBB1_474
+# %bb.40:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.41:
+	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_42
+# %bb.167:
+	lea	rax, [rdx + 8*r11]
+	cmp	rax, r8
+	jbe	.LBB1_257
+# %bb.168:
+	lea	rax, [r8 + 8*r11]
+	cmp	rax, rdx
+	jbe	.LBB1_257
+.LBB1_42:
+	xor	esi, esi
+.LBB1_406:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB1_408
+	.p2align	4, 0x90
+.LBB1_407:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_407
+.LBB1_408:
+	cmp	rax, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_409:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB1_409
+	jmp	.LBB1_474
+.LBB1_43:
+	cmp	edi, 8
+	jle	.LBB1_93
+# %bb.44:
+	cmp	edi, 9
+	je	.LBB1_122
+# %bb.45:
+	cmp	edi, 11
+	je	.LBB1_125
+# %bb.46:
+	cmp	edi, 12
+	jne	.LBB1_3
+# %bb.47:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.48:
+	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_49
+# %bb.227:
+	lea	rax, [rdx + 8*r11]
+	cmp	rax, r8
+	jbe	.LBB1_287
+# %bb.228:
+	lea	rax, [r8 + 8*r11]
+	cmp	rax, rdx
+	jbe	.LBB1_287
+.LBB1_49:
+	xor	esi, esi
+.LBB1_670:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB1_672
+.LBB1_671:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_671
+.LBB1_672:
+	cmp	rax, 3
+	jb	.LBB1_3
+.LBB1_673:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB1_673
+	jmp	.LBB1_3
+.LBB1_50:
+	cmp	edi, 2
+	je	.LBB1_82
+# %bb.51:
+	cmp	edi, 3
+	jne	.LBB1_517
+# %bb.52:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.53:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_54
+# %bb.140:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_200
+# %bb.141:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_200
+.LBB1_54:
+	xor	esi, esi
+.LBB1_334:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_336
+	.p2align	4, 0x90
+.LBB1_335:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, byte ptr [rdx + rsi]
+	sub	bl, al
+	mov	byte ptr [r8 + rsi], bl
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_335
+.LBB1_336:
+	cmp	rdi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_337:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_337
+	jmp	.LBB1_517
+.LBB1_55:
+	cmp	edi, 7
+	je	.LBB1_85
+# %bb.56:
+	cmp	edi, 8
+	jne	.LBB1_517
+# %bb.57:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.58:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_59
+# %bb.143:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_203
+# %bb.144:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_203
+.LBB1_59:
+	xor	esi, esi
+.LBB1_342:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_344
+	.p2align	4, 0x90
+.LBB1_343:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, qword ptr [rdx + 8*rsi]
+	sub	rbx, rax
+	mov	qword ptr [r8 + 8*rsi], rbx
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_343
+.LBB1_344:
+	cmp	rdi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_345:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_345
+	jmp	.LBB1_517
+.LBB1_60:
+	cmp	edi, 2
+	je	.LBB1_110
+# %bb.61:
+	cmp	edi, 3
+	jne	.LBB1_474
+# %bb.62:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.63:
+	mov	r14b, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_64
+# %bb.170:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_260
+# %bb.171:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_260
+.LBB1_64:
+	xor	esi, esi
+.LBB1_414:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_416
+	.p2align	4, 0x90
+.LBB1_415:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_415
+.LBB1_416:
+	cmp	r11, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_417:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_417
+	jmp	.LBB1_474
+.LBB1_65:
+	cmp	edi, 7
+	je	.LBB1_113
+# %bb.66:
+	cmp	edi, 8
+	jne	.LBB1_474
+# %bb.67:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.68:
+	mov	r14, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_69
+# %bb.173:
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB1_263
+# %bb.174:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_263
+.LBB1_69:
+	xor	esi, esi
+.LBB1_422:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_424
+	.p2align	4, 0x90
+.LBB1_423:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_423
+.LBB1_424:
+	cmp	r11, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_425:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_425
+	jmp	.LBB1_474
+.LBB1_70:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.71:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_72
+# %bb.146:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_206
+# %bb.147:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_206
+.LBB1_72:
+	xor	esi, esi
+.LBB1_350:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_352
+	.p2align	4, 0x90
+.LBB1_351:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rdx + 2*rsi]
+	sub	ebx, eax
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_351
+.LBB1_352:
+	cmp	rdi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_353:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_353
+	jmp	.LBB1_517
+.LBB1_73:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.74:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_75
+# %bb.149:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_209
+# %bb.150:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_209
+.LBB1_75:
+	xor	esi, esi
+.LBB1_358:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_360
+	.p2align	4, 0x90
+.LBB1_359:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rdx + 2*rsi]
+	sub	ebx, eax
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_359
+.LBB1_360:
+	cmp	rdi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_361:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_361
+	jmp	.LBB1_517
+.LBB1_76:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.77:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_78
+# %bb.152:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_212
+# %bb.153:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_212
+.LBB1_78:
+	xor	esi, esi
+.LBB1_366:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_368
+	.p2align	4, 0x90
+.LBB1_367:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, qword ptr [rdx + 8*rsi]
+	sub	rbx, rax
+	mov	qword ptr [r8 + 8*rsi], rbx
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_367
+.LBB1_368:
+	cmp	rdi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_369:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_369
+	jmp	.LBB1_517
+.LBB1_79:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.80:
+	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB1_81
+# %bb.155:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_215
+# %bb.156:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_215
+.LBB1_81:
+	xor	ecx, ecx
+.LBB1_374:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_376
+	.p2align	4, 0x90
+.LBB1_375:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_375
+.LBB1_376:
+	cmp	rsi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_377:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_377
+	jmp	.LBB1_517
+.LBB1_82:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.83:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_84
+# %bb.158:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_218
+# %bb.159:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_218
+.LBB1_84:
+	xor	esi, esi
+.LBB1_382:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_384
+	.p2align	4, 0x90
+.LBB1_383:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, byte ptr [rdx + rsi]
+	sub	bl, al
+	mov	byte ptr [r8 + rsi], bl
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_383
+.LBB1_384:
+	cmp	rdi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_385:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_385
+	jmp	.LBB1_517
+.LBB1_85:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.86:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_87
+# %bb.161:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_221
+# %bb.162:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_221
+.LBB1_87:
+	xor	esi, esi
+.LBB1_390:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_392
+	.p2align	4, 0x90
+.LBB1_391:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, dword ptr [rdx + 4*rsi]
+	sub	ebx, eax
+	mov	dword ptr [r8 + 4*rsi], ebx
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_391
+.LBB1_392:
+	cmp	rdi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_393:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_393
+	jmp	.LBB1_517
+.LBB1_88:
+	cmp	edi, 2
+	je	.LBB1_128
+# %bb.89:
+	cmp	edi, 3
+	jne	.LBB1_3
+# %bb.90:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.91:
+	mov	r14b, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_92
+# %bb.230:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_290
+# %bb.231:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_290
+.LBB1_92:
+	xor	esi, esi
+.LBB1_678:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_680
+.LBB1_679:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_679
+.LBB1_680:
+	cmp	r11, 3
+	jb	.LBB1_3
+.LBB1_681:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_681
+	jmp	.LBB1_3
+.LBB1_93:
+	cmp	edi, 7
+	je	.LBB1_131
+# %bb.94:
+	cmp	edi, 8
+	jne	.LBB1_3
+# %bb.95:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.96:
+	mov	r14, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_97
+# %bb.233:
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB1_293
+# %bb.234:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_293
+.LBB1_97:
+	xor	esi, esi
+.LBB1_686:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_688
+.LBB1_687:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_687
+.LBB1_688:
+	cmp	r11, 3
+	jb	.LBB1_3
+.LBB1_689:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_689
+	jmp	.LBB1_3
+.LBB1_98:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.99:
+	movzx	r14d, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_100
+# %bb.176:
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB1_266
+# %bb.177:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_266
+.LBB1_100:
+	xor	esi, esi
+.LBB1_430:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB1_432
+	.p2align	4, 0x90
+.LBB1_431:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rdx + 2*rsi]
+	add	bx, r14w
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB1_431
+.LBB1_432:
+	cmp	r11, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_433:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_433
+	jmp	.LBB1_474
+.LBB1_101:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.102:
+	movzx	r14d, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_103
+# %bb.179:
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB1_269
+# %bb.180:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_269
+.LBB1_103:
+	xor	esi, esi
+.LBB1_438:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB1_440
+	.p2align	4, 0x90
+.LBB1_439:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rdx + 2*rsi]
+	add	bx, r14w
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB1_439
+.LBB1_440:
+	cmp	r11, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_441:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_441
+	jmp	.LBB1_474
+.LBB1_104:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.105:
+	mov	r14, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_106
+# %bb.182:
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB1_272
+# %bb.183:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_272
+.LBB1_106:
+	xor	esi, esi
+.LBB1_446:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_448
+	.p2align	4, 0x90
+.LBB1_447:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_447
+.LBB1_448:
+	cmp	r11, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_449:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_449
+	jmp	.LBB1_474
+.LBB1_107:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.108:
+	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_109
+# %bb.185:
+	lea	rax, [rdx + 4*r11]
+	cmp	rax, r8
+	jbe	.LBB1_275
+# %bb.186:
+	lea	rax, [r8 + 4*r11]
+	cmp	rax, rdx
+	jbe	.LBB1_275
+.LBB1_109:
+	xor	esi, esi
+.LBB1_454:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB1_456
+	.p2align	4, 0x90
+.LBB1_455:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_455
+.LBB1_456:
+	cmp	rax, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_457:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB1_457
+	jmp	.LBB1_474
+.LBB1_110:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.111:
+	mov	r14b, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_112
+# %bb.188:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_278
+# %bb.189:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_278
+.LBB1_112:
+	xor	esi, esi
+.LBB1_462:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_464
+	.p2align	4, 0x90
+.LBB1_463:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_463
+.LBB1_464:
+	cmp	r11, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_465:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_465
+	jmp	.LBB1_474
+.LBB1_113:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.114:
+	mov	r14d, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_115
+# %bb.191:
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB1_281
+# %bb.192:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_281
+.LBB1_115:
+	xor	esi, esi
+.LBB1_470:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_472
+	.p2align	4, 0x90
+.LBB1_471:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_471
+.LBB1_472:
+	cmp	r11, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_473:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_473
+	jmp	.LBB1_474
+.LBB1_116:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.117:
+	movzx	r14d, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_118
+# %bb.236:
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB1_296
+# %bb.237:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_296
+.LBB1_118:
+	xor	esi, esi
+.LBB1_694:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB1_696
+.LBB1_695:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rdx + 2*rsi]
+	add	bx, r14w
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB1_695
+.LBB1_696:
+	cmp	r11, 3
+	jb	.LBB1_3
+.LBB1_697:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_697
+	jmp	.LBB1_3
+.LBB1_119:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.120:
+	movzx	r14d, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_121
+# %bb.239:
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB1_299
+# %bb.240:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_299
+.LBB1_121:
+	xor	esi, esi
+.LBB1_702:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB1_704
+.LBB1_703:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rdx + 2*rsi]
+	add	bx, r14w
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB1_703
+.LBB1_704:
+	cmp	r11, 3
+	jb	.LBB1_3
+.LBB1_705:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_705
+	jmp	.LBB1_3
+.LBB1_122:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.123:
+	mov	r14, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_124
+# %bb.242:
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB1_302
+# %bb.243:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_302
+.LBB1_124:
+	xor	esi, esi
+.LBB1_710:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_712
+.LBB1_711:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_711
+.LBB1_712:
+	cmp	r11, 3
+	jb	.LBB1_3
+.LBB1_713:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_713
+	jmp	.LBB1_3
+.LBB1_125:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.126:
+	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_127
+# %bb.245:
+	lea	rax, [rdx + 4*r11]
+	cmp	rax, r8
+	jbe	.LBB1_305
+# %bb.246:
+	lea	rax, [r8 + 4*r11]
+	cmp	rax, rdx
+	jbe	.LBB1_305
+.LBB1_127:
+	xor	esi, esi
+.LBB1_718:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB1_720
+.LBB1_719:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_719
+.LBB1_720:
+	cmp	rax, 3
+	jb	.LBB1_3
+.LBB1_721:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB1_721
+	jmp	.LBB1_3
+.LBB1_128:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.129:
+	mov	r14b, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_130
+# %bb.248:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_308
+# %bb.249:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_308
+.LBB1_130:
+	xor	esi, esi
+.LBB1_726:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_728
+.LBB1_727:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_727
+.LBB1_728:
+	cmp	r11, 3
+	jb	.LBB1_3
+.LBB1_729:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_729
+	jmp	.LBB1_3
+.LBB1_131:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.132:
+	mov	r14d, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_133
+# %bb.251:
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB1_311
+# %bb.252:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_311
+.LBB1_133:
+	xor	esi, esi
+.LBB1_734:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_736
+.LBB1_735:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_735
+.LBB1_736:
+	cmp	r11, 3
+	jb	.LBB1_3
+.LBB1_737:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_737
+	jmp	.LBB1_3
+.LBB1_194:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_314
+# %bb.195:
+	mov	rbx, r9
+	and	rbx, -2
+	neg	rbx
+	xor	edi, edi
+.LBB1_196:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rbx, 2
+	jne	.LBB1_196
+	jmp	.LBB1_315
+.LBB1_197:
+	mov	ecx, eax
+	and	ecx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rcx - 16]
+	mov	rbx, rsi
+	shr	rbx, 4
+	add	rbx, 1
+	test	rsi, rsi
+	je	.LBB1_322
+# %bb.198:
+	mov	rdi, rbx
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+.LBB1_199:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm5, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi + 128]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 160]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 192]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 224]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm5, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 224], ymm5
+	add	rsi, 32
+	add	rdi, 2
+	jne	.LBB1_199
+	jmp	.LBB1_323
+.LBB1_200:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rcx, [rsi - 128]
+	mov	r9, rcx
+	shr	r9, 7
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_330
+# %bb.201:
+	mov	rbx, r9
+	and	rbx, -2
+	neg	rbx
+	xor	edi, edi
+.LBB1_202:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rbx, 2
+	jne	.LBB1_202
+	jmp	.LBB1_331
+.LBB1_203:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_338
+# %bb.204:
+	mov	rbx, r9
+	and	rbx, -2
+	neg	rbx
+	xor	edi, edi
+.LBB1_205:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rbx, 2
+	jne	.LBB1_205
+	jmp	.LBB1_339
+.LBB1_206:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_346
+# %bb.207:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB1_208:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx + 64]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 96]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
+	add	rbx, 64
+	add	rdi, 2
+	jne	.LBB1_208
+	jmp	.LBB1_347
+.LBB1_209:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_354
+# %bb.210:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB1_211:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx + 64]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 96]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
+	add	rbx, 64
+	add	rdi, 2
+	jne	.LBB1_211
+	jmp	.LBB1_355
+.LBB1_212:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_362
+# %bb.213:
+	mov	rbx, r9
+	and	rbx, -2
+	neg	rbx
+	xor	edi, edi
+.LBB1_214:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rbx, 2
+	jne	.LBB1_214
+	jmp	.LBB1_363
+.LBB1_215:
+	mov	ecx, eax
+	and	ecx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rcx - 32]
+	mov	rbx, rsi
+	shr	rbx, 5
+	add	rbx, 1
+	test	rsi, rsi
+	je	.LBB1_370
+# %bb.216:
+	mov	rdi, rbx
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+.LBB1_217:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm5, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi + 128]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 160]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 192]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 224]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm5, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 224], ymm5
+	add	rsi, 64
+	add	rdi, 2
+	jne	.LBB1_217
+	jmp	.LBB1_371
+.LBB1_218:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rcx, [rsi - 128]
+	mov	r9, rcx
+	shr	r9, 7
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_378
+# %bb.219:
+	mov	rbx, r9
+	and	rbx, -2
+	neg	rbx
+	xor	edi, edi
+.LBB1_220:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rbx, 2
+	jne	.LBB1_220
+	jmp	.LBB1_379
+.LBB1_221:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_386
+# %bb.222:
+	mov	rbx, r9
+	and	rbx, -2
+	neg	rbx
+	xor	edi, edi
+.LBB1_223:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rbx, 2
+	jne	.LBB1_223
+	jmp	.LBB1_387
+.LBB1_254:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastd	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_394
+# %bb.255:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_256:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_256
+	jmp	.LBB1_395
+.LBB1_257:
+	mov	esi, r11d
+	and	esi, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rax, [rsi - 16]
+	mov	r10, rax
+	shr	r10, 4
+	add	r10, 1
+	test	rax, rax
+	je	.LBB1_402
+# %bb.258:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_259:                              # =>This Inner Loop Header: Depth=1
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rbx]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rbx + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rbx + 64]
+	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rbx + 96]
+	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm5
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rbx + 128]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rbx + 160]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rbx + 192]
+	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rbx + 224]
+	vmovupd	ymmword ptr [r8 + 8*rbx + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rbx + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rbx + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rbx + 224], ymm5
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB1_259
+	jmp	.LBB1_403
+.LBB1_260:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	lea	rax, [rsi - 128]
+	mov	r11, rax
+	shr	r11, 7
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_410
+# %bb.261:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_262:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rbx + 224]
+	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
+	add	rbx, 256
+	add	rax, 2
+	jne	.LBB1_262
+	jmp	.LBB1_411
+.LBB1_263:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r14
+	vpbroadcastq	ymm0, xmm0
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_418
+# %bb.264:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_265:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB1_265
+	jmp	.LBB1_419
+.LBB1_266:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastw	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_426
+# %bb.267:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_268:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_268
+	jmp	.LBB1_427
+.LBB1_269:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastw	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_434
+# %bb.270:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_271:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_271
+	jmp	.LBB1_435
+.LBB1_272:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r14
+	vpbroadcastq	ymm0, xmm0
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_442
+# %bb.273:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_274:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB1_274
+	jmp	.LBB1_443
+.LBB1_275:
+	mov	esi, r11d
+	and	esi, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rax, [rsi - 32]
+	mov	r10, rax
+	shr	r10, 5
+	add	r10, 1
+	test	rax, rax
+	je	.LBB1_450
+# %bb.276:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_277:                              # =>This Inner Loop Header: Depth=1
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rbx]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rbx + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rbx + 64]
+	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rbx + 96]
+	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
+	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm5
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rbx + 128]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rbx + 160]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rbx + 192]
+	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rbx + 224]
+	vmovups	ymmword ptr [r8 + 4*rbx + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rbx + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rbx + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rbx + 224], ymm5
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_277
+	jmp	.LBB1_451
+.LBB1_278:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	lea	rax, [rsi - 128]
+	mov	r11, rax
+	shr	r11, 7
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_458
+# %bb.279:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_280:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rbx + 224]
+	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
+	add	rbx, 256
+	add	rax, 2
+	jne	.LBB1_280
+	jmp	.LBB1_459
+.LBB1_281:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastd	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_466
+# %bb.282:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_283:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_283
+	jmp	.LBB1_467
+.LBB1_284:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastd	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_658
+# %bb.285:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_286:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_286
+	jmp	.LBB1_659
+.LBB1_287:
+	mov	esi, r11d
+	and	esi, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rax, [rsi - 16]
+	mov	r10, rax
+	shr	r10, 4
+	add	r10, 1
+	test	rax, rax
+	je	.LBB1_666
+# %bb.288:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_289:                              # =>This Inner Loop Header: Depth=1
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rbx]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rbx + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rbx + 64]
+	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rbx + 96]
+	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm5
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rbx + 128]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rbx + 160]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rbx + 192]
+	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rbx + 224]
+	vmovupd	ymmword ptr [r8 + 8*rbx + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rbx + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rbx + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rbx + 224], ymm5
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB1_289
+	jmp	.LBB1_667
+.LBB1_290:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	lea	rax, [rsi - 128]
+	mov	r11, rax
+	shr	r11, 7
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_674
+# %bb.291:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_292:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rbx + 224]
+	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
+	add	rbx, 256
+	add	rax, 2
+	jne	.LBB1_292
+	jmp	.LBB1_675
+.LBB1_293:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r14
+	vpbroadcastq	ymm0, xmm0
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_682
+# %bb.294:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_295:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB1_295
+	jmp	.LBB1_683
+.LBB1_296:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastw	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_690
+# %bb.297:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_298:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_298
+	jmp	.LBB1_691
+.LBB1_299:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastw	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_698
+# %bb.300:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_301:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_301
+	jmp	.LBB1_699
+.LBB1_302:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r14
+	vpbroadcastq	ymm0, xmm0
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_706
+# %bb.303:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_304:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB1_304
+	jmp	.LBB1_707
+.LBB1_305:
+	mov	esi, r11d
+	and	esi, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rax, [rsi - 32]
+	mov	r10, rax
+	shr	r10, 5
+	add	r10, 1
+	test	rax, rax
+	je	.LBB1_714
+# %bb.306:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_307:                              # =>This Inner Loop Header: Depth=1
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rbx]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rbx + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rbx + 64]
+	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rbx + 96]
+	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
+	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm5
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rbx + 128]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rbx + 160]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rbx + 192]
+	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rbx + 224]
+	vmovups	ymmword ptr [r8 + 4*rbx + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rbx + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rbx + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rbx + 224], ymm5
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_307
+	jmp	.LBB1_715
+.LBB1_308:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	lea	rax, [rsi - 128]
+	mov	r11, rax
+	shr	r11, 7
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_722
+# %bb.309:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_310:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rbx + 224]
+	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
+	add	rbx, 256
+	add	rax, 2
+	jne	.LBB1_310
+	jmp	.LBB1_723
+.LBB1_311:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastd	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_730
+# %bb.312:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_313:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_313
+	jmp	.LBB1_731
+.LBB1_314:
+	xor	edi, edi
+.LBB1_315:
+	test	r9b, 1
+	je	.LBB1_317
+# %bb.316:
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_317:
+	cmp	rsi, r10
+	je	.LBB1_517
+	jmp	.LBB1_318
+.LBB1_322:
+	xor	esi, esi
+.LBB1_323:
+	test	bl, 1
+	je	.LBB1_325
+# %bb.324:
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm1, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
+.LBB1_325:
+	cmp	rcx, rax
+	je	.LBB1_517
+	jmp	.LBB1_326
+.LBB1_330:
+	xor	edi, edi
+.LBB1_331:
+	test	r9b, 1
+	je	.LBB1_333
+# %bb.332:
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_333:
+	cmp	rsi, r10
+	je	.LBB1_517
+	jmp	.LBB1_334
+.LBB1_338:
+	xor	edi, edi
+.LBB1_339:
+	test	r9b, 1
+	je	.LBB1_341
+# %bb.340:
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_341:
+	cmp	rsi, r10
+	je	.LBB1_517
+	jmp	.LBB1_342
+.LBB1_346:
+	xor	ebx, ebx
+.LBB1_347:
+	test	r9b, 1
+	je	.LBB1_349
+# %bb.348:
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm0, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
+.LBB1_349:
+	cmp	rsi, r10
+	je	.LBB1_517
+	jmp	.LBB1_350
+.LBB1_354:
+	xor	ebx, ebx
+.LBB1_355:
+	test	r9b, 1
+	je	.LBB1_357
+# %bb.356:
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm0, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
+.LBB1_357:
+	cmp	rsi, r10
+	je	.LBB1_517
+	jmp	.LBB1_358
+.LBB1_362:
+	xor	edi, edi
+.LBB1_363:
+	test	r9b, 1
+	je	.LBB1_365
+# %bb.364:
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_365:
+	cmp	rsi, r10
+	je	.LBB1_517
+	jmp	.LBB1_366
+.LBB1_370:
+	xor	esi, esi
+.LBB1_371:
+	test	bl, 1
+	je	.LBB1_373
+# %bb.372:
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm1, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
+.LBB1_373:
+	cmp	rcx, rax
+	je	.LBB1_517
+	jmp	.LBB1_374
+.LBB1_378:
+	xor	edi, edi
+.LBB1_379:
+	test	r9b, 1
+	je	.LBB1_381
+# %bb.380:
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_381:
+	cmp	rsi, r10
+	je	.LBB1_517
+	jmp	.LBB1_382
+.LBB1_386:
+	xor	edi, edi
+.LBB1_387:
+	test	r9b, 1
+	je	.LBB1_389
+# %bb.388:
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_389:
+	cmp	rsi, r10
+	je	.LBB1_517
+	jmp	.LBB1_390
+.LBB1_394:
+	xor	ebx, ebx
+.LBB1_395:
+	test	r11b, 1
+	je	.LBB1_397
+# %bb.396:
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
+.LBB1_397:
+	cmp	rsi, r10
+	je	.LBB1_474
+	jmp	.LBB1_398
+.LBB1_402:
+	xor	ebx, ebx
+.LBB1_403:
+	test	r10b, 1
+	je	.LBB1_405
+# %bb.404:
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rbx]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rbx + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rbx + 64]
+	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rbx + 96]
+	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm1
+.LBB1_405:
+	cmp	rsi, r11
+	je	.LBB1_474
+	jmp	.LBB1_406
+.LBB1_410:
+	xor	ebx, ebx
+.LBB1_411:
+	test	r11b, 1
+	je	.LBB1_413
+# %bb.412:
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
+.LBB1_413:
+	cmp	rsi, r10
+	je	.LBB1_474
+	jmp	.LBB1_414
+.LBB1_418:
+	xor	ebx, ebx
+.LBB1_419:
+	test	r11b, 1
+	je	.LBB1_421
+# %bb.420:
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
+.LBB1_421:
+	cmp	rsi, r10
+	je	.LBB1_474
+	jmp	.LBB1_422
+.LBB1_426:
+	xor	ebx, ebx
+.LBB1_427:
+	test	r11b, 1
+	je	.LBB1_429
+# %bb.428:
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
+.LBB1_429:
+	cmp	rsi, r10
+	je	.LBB1_474
+	jmp	.LBB1_430
+.LBB1_434:
+	xor	ebx, ebx
+.LBB1_435:
+	test	r11b, 1
+	je	.LBB1_437
+# %bb.436:
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
+.LBB1_437:
+	cmp	rsi, r10
+	je	.LBB1_474
+	jmp	.LBB1_438
+.LBB1_442:
+	xor	ebx, ebx
+.LBB1_443:
+	test	r11b, 1
+	je	.LBB1_445
+# %bb.444:
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
+.LBB1_445:
+	cmp	rsi, r10
+	je	.LBB1_474
+	jmp	.LBB1_446
+.LBB1_450:
+	xor	ebx, ebx
+.LBB1_451:
+	test	r10b, 1
+	je	.LBB1_453
+# %bb.452:
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rbx]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rbx + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rbx + 64]
+	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rbx + 96]
+	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
+	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm1
+.LBB1_453:
+	cmp	rsi, r11
+	je	.LBB1_474
+	jmp	.LBB1_454
+.LBB1_458:
+	xor	ebx, ebx
+.LBB1_459:
+	test	r11b, 1
+	je	.LBB1_461
+# %bb.460:
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
+.LBB1_461:
+	cmp	rsi, r10
+	je	.LBB1_474
+	jmp	.LBB1_462
+.LBB1_466:
+	xor	ebx, ebx
+.LBB1_467:
+	test	r11b, 1
+	je	.LBB1_469
+# %bb.468:
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
+.LBB1_469:
+	cmp	rsi, r10
+	jne	.LBB1_470
+.LBB1_474:
+	cmp	edi, 6
+	jg	.LBB1_482
+# %bb.475:
+	cmp	edi, 3
+	jle	.LBB1_489
+# %bb.476:
+	cmp	edi, 4
+	je	.LBB1_499
+# %bb.477:
+	cmp	edi, 5
+	je	.LBB1_502
+# %bb.478:
+	cmp	edi, 6
+	jne	.LBB1_13
+# %bb.479:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.480:
+	mov	r11d, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_481
+# %bb.518:
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB1_548
+# %bb.519:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_548
+.LBB1_481:
+	xor	esi, esi
+.LBB1_582:
+	mov	r14, rsi
+	not	r14
+	add	r14, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_584
+	.p2align	4, 0x90
+.LBB1_583:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, r11d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_583
+.LBB1_584:
+	cmp	r14, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_585:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, r11d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, r11d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, r11d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, r11d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_585
+	jmp	.LBB1_13
+.LBB1_482:
+	cmp	edi, 8
+	jle	.LBB1_494
+# %bb.483:
+	cmp	edi, 9
+	je	.LBB1_505
+# %bb.484:
+	cmp	edi, 11
+	je	.LBB1_508
+# %bb.485:
+	cmp	edi, 12
+	jne	.LBB1_13
+# %bb.486:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.487:
+	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_488
+# %bb.521:
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB1_551
+# %bb.522:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_551
+.LBB1_488:
+	xor	esi, esi
+.LBB1_590:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_592
+	.p2align	4, 0x90
+.LBB1_591:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_591
+.LBB1_592:
+	cmp	rax, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_593:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rsi], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_593
+	jmp	.LBB1_13
+.LBB1_489:
+	cmp	edi, 2
+	je	.LBB1_511
+# %bb.490:
+	cmp	edi, 3
+	jne	.LBB1_13
+# %bb.491:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.492:
+	mov	r11b, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_493
+# %bb.524:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_554
+# %bb.525:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_554
+.LBB1_493:
+	xor	esi, esi
+.LBB1_598:
+	mov	r14, rsi
+	not	r14
+	add	r14, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_600
+	.p2align	4, 0x90
+.LBB1_599:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, r11b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_599
+.LBB1_600:
+	cmp	r14, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_601:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, r11b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, r11b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, r11b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, r11b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_601
+	jmp	.LBB1_13
+.LBB1_494:
+	cmp	edi, 7
+	je	.LBB1_514
+# %bb.495:
+	cmp	edi, 8
+	jne	.LBB1_13
+# %bb.496:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.497:
+	mov	r11, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_498
+# %bb.527:
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB1_557
+# %bb.528:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_557
+.LBB1_498:
+	xor	esi, esi
+.LBB1_606:
+	mov	r14, rsi
+	not	r14
+	add	r14, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_608
+	.p2align	4, 0x90
+.LBB1_607:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, r11
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_607
+.LBB1_608:
+	cmp	r14, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_609:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, r11
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, r11
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, r11
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, r11
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_609
+	jmp	.LBB1_13
+.LBB1_499:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.500:
+	movzx	r14d, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_501
+# %bb.530:
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB1_560
+# %bb.531:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_560
+.LBB1_501:
+	xor	esi, esi
+.LBB1_614:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB1_616
+	.p2align	4, 0x90
+.LBB1_615:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rdx + 2*rsi]
+	sub	ebx, r14d
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB1_615
+.LBB1_616:
+	cmp	r11, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_617:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_617
+	jmp	.LBB1_13
+.LBB1_502:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.503:
+	movzx	r14d, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_504
+# %bb.533:
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB1_563
+# %bb.534:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_563
+.LBB1_504:
+	xor	esi, esi
+.LBB1_622:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB1_624
+	.p2align	4, 0x90
+.LBB1_623:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rdx + 2*rsi]
+	sub	ebx, r14d
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB1_623
+.LBB1_624:
+	cmp	r11, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_625:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_625
+	jmp	.LBB1_13
+.LBB1_505:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.506:
+	mov	r11, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_507
+# %bb.536:
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB1_566
+# %bb.537:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_566
+.LBB1_507:
+	xor	esi, esi
+.LBB1_630:
+	mov	r14, rsi
+	not	r14
+	add	r14, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_632
+	.p2align	4, 0x90
+.LBB1_631:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, r11
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_631
+.LBB1_632:
+	cmp	r14, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_633:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, r11
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, r11
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, r11
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, r11
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_633
+	jmp	.LBB1_13
+.LBB1_508:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.509:
+	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_510
+# %bb.539:
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB1_569
+# %bb.540:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_569
+.LBB1_510:
+	xor	esi, esi
+.LBB1_638:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_640
+	.p2align	4, 0x90
+.LBB1_639:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_639
+.LBB1_640:
+	cmp	rax, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_641:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rsi], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm1
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_641
+	jmp	.LBB1_13
+.LBB1_511:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.512:
+	mov	r11b, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_513
+# %bb.542:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_572
+# %bb.543:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_572
+.LBB1_513:
+	xor	esi, esi
+.LBB1_646:
+	mov	r14, rsi
+	not	r14
+	add	r14, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_648
+	.p2align	4, 0x90
+.LBB1_647:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, r11b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_647
+.LBB1_648:
+	cmp	r14, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_649:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, r11b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, r11b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, r11b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, r11b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_649
+	jmp	.LBB1_13
+.LBB1_514:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.515:
+	mov	r11d, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_516
+# %bb.545:
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB1_575
+# %bb.546:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_575
+.LBB1_516:
+	xor	esi, esi
+.LBB1_654:
+	mov	r14, rsi
+	not	r14
+	add	r14, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_656
+	.p2align	4, 0x90
+.LBB1_655:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, r11d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_655
+.LBB1_656:
+	cmp	r14, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_657:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, r11d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, r11d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, r11d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, r11d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_657
+	jmp	.LBB1_13
+.LBB1_517:
+	lea	rsp, [rbp - 16]
+	pop	rbx
+	pop	r14
+	pop	rbp
+	vzeroupper
+	ret
+.LBB1_548:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r11d
+	vpbroadcastd	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r14, rax
+	shr	r14, 5
+	add	r14, 1
+	test	rax, rax
+	je	.LBB1_578
+# %bb.549:
+	mov	rbx, r14
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB1_550:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rax]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rax + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rax + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rax + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rax], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rax + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rax + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rax + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rax + 224]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rax + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rax + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rax + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rax + 224], ymm4
+	add	rax, 64
+	add	rbx, 2
+	jne	.LBB1_550
+	jmp	.LBB1_579
+.LBB1_551:
+	mov	esi, r10d
+	and	esi, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_586
+# %bb.552:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB1_553:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rax]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rax + 32]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rax + 64]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rax + 96]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm5, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rax], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rax + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rax + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rax + 96], ymm5
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rax + 128]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rax + 160]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rax + 192]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rax + 224]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm5, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rax + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rax + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rax + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rax + 224], ymm5
+	add	rax, 32
+	add	rbx, 2
+	jne	.LBB1_553
+	jmp	.LBB1_587
+.LBB1_554:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, r11d
+	vpbroadcastb	ymm0, xmm0
+	lea	rax, [rsi - 128]
+	mov	r14, rax
+	shr	r14, 7
+	add	r14, 1
+	test	rax, rax
+	je	.LBB1_594
+# %bb.555:
+	mov	rbx, r14
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB1_556:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rax]
+	vmovdqu	ymm2, ymmword ptr [rdx + rax + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rax + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rax + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rax], ymm1
+	vmovdqu	ymmword ptr [r8 + rax + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rax + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rax + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + rax + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + rax + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + rax + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + rax + 224]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rax + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rax + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rax + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rax + 224], ymm4
+	add	rax, 256
+	add	rbx, 2
+	jne	.LBB1_556
+	jmp	.LBB1_595
+.LBB1_557:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r11
+	vpbroadcastq	ymm0, xmm0
+	lea	rax, [rsi - 16]
+	mov	r14, rax
+	shr	r14, 4
+	add	r14, 1
+	test	rax, rax
+	je	.LBB1_602
+# %bb.558:
+	mov	rbx, r14
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB1_559:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rax + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rax + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rax + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rax], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rax + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rax + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rax + 224]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rax + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rax + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rax + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rax + 224], ymm4
+	add	rax, 32
+	add	rbx, 2
+	jne	.LBB1_559
+	jmp	.LBB1_603
+.LBB1_560:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastw	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_610
+# %bb.561:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_562:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx + 64]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 96]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_562
+	jmp	.LBB1_611
+.LBB1_563:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastw	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_618
+# %bb.564:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_565:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx + 64]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 96]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_565
+	jmp	.LBB1_619
+.LBB1_566:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r11
+	vpbroadcastq	ymm0, xmm0
+	lea	rax, [rsi - 16]
+	mov	r14, rax
+	shr	r14, 4
+	add	r14, 1
+	test	rax, rax
+	je	.LBB1_626
+# %bb.567:
+	mov	rbx, r14
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB1_568:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rax + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rax + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rax + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rax], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rax + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rax + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rax + 224]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rax + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rax + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rax + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rax + 224], ymm4
+	add	rax, 32
+	add	rbx, 2
+	jne	.LBB1_568
+	jmp	.LBB1_627
+.LBB1_569:
+	mov	esi, r10d
+	and	esi, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_634
+# %bb.570:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB1_571:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm2, ymmword ptr [rdx + 4*rax]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rax + 32]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rax + 64]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rax + 96]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm5, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rax], ymm2
+	vmovups	ymmword ptr [r8 + 4*rax + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rax + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rax + 96], ymm5
+	vmovups	ymm2, ymmword ptr [rdx + 4*rax + 128]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rax + 160]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rax + 192]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rax + 224]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm5, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rax + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rax + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rax + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rax + 224], ymm5
+	add	rax, 64
+	add	rbx, 2
+	jne	.LBB1_571
+	jmp	.LBB1_635
+.LBB1_572:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, r11d
+	vpbroadcastb	ymm0, xmm0
+	lea	rax, [rsi - 128]
+	mov	r14, rax
+	shr	r14, 7
+	add	r14, 1
+	test	rax, rax
+	je	.LBB1_642
+# %bb.573:
+	mov	rbx, r14
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB1_574:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rax]
+	vmovdqu	ymm2, ymmword ptr [rdx + rax + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rax + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rax + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rax], ymm1
+	vmovdqu	ymmword ptr [r8 + rax + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rax + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rax + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + rax + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + rax + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + rax + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + rax + 224]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rax + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rax + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rax + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rax + 224], ymm4
+	add	rax, 256
+	add	rbx, 2
+	jne	.LBB1_574
+	jmp	.LBB1_643
+.LBB1_575:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r11d
+	vpbroadcastd	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r14, rax
+	shr	r14, 5
+	add	r14, 1
+	test	rax, rax
+	je	.LBB1_650
+# %bb.576:
+	mov	rbx, r14
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB1_577:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rax]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rax + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rax + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rax + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rax], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rax + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rax + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rax + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rax + 224]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rax + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rax + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rax + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rax + 224], ymm4
+	add	rax, 64
+	add	rbx, 2
+	jne	.LBB1_577
+	jmp	.LBB1_651
+.LBB1_578:
+	xor	eax, eax
+.LBB1_579:
+	test	r14b, 1
+	je	.LBB1_581
+# %bb.580:
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rax]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rax + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rax + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rax + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rax], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm0
+.LBB1_581:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_582
+.LBB1_586:
+	xor	eax, eax
+.LBB1_587:
+	test	r11b, 1
+	je	.LBB1_589
+# %bb.588:
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rax]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rax + 32]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rax + 64]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rax + 96]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm1, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rax], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rax + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rax + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rax + 96], ymm1
+.LBB1_589:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_590
+.LBB1_594:
+	xor	eax, eax
+.LBB1_595:
+	test	r14b, 1
+	je	.LBB1_597
+# %bb.596:
+	vmovdqu	ymm1, ymmword ptr [rdx + rax]
+	vmovdqu	ymm2, ymmword ptr [rdx + rax + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rax + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rax + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rax], ymm1
+	vmovdqu	ymmword ptr [r8 + rax + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rax + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rax + 96], ymm0
+.LBB1_597:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_598
+.LBB1_602:
+	xor	eax, eax
+.LBB1_603:
+	test	r14b, 1
+	je	.LBB1_605
+# %bb.604:
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rax + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rax + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rax + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rax], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm0
+.LBB1_605:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_606
+.LBB1_610:
+	xor	ebx, ebx
+.LBB1_611:
+	test	r11b, 1
+	je	.LBB1_613
+# %bb.612:
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm0, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
+.LBB1_613:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_614
+.LBB1_618:
+	xor	ebx, ebx
+.LBB1_619:
+	test	r11b, 1
+	je	.LBB1_621
+# %bb.620:
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm0, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
+.LBB1_621:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_622
+.LBB1_626:
+	xor	eax, eax
+.LBB1_627:
+	test	r14b, 1
+	je	.LBB1_629
+# %bb.628:
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rax + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rax + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rax + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rax], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm0
+.LBB1_629:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_630
+.LBB1_634:
+	xor	eax, eax
+.LBB1_635:
+	test	r11b, 1
+	je	.LBB1_637
+# %bb.636:
+	vmovups	ymm2, ymmword ptr [rdx + 4*rax]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rax + 32]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rax + 64]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rax + 96]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm1, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rax], ymm2
+	vmovups	ymmword ptr [r8 + 4*rax + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rax + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rax + 96], ymm1
+.LBB1_637:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_638
+.LBB1_642:
+	xor	eax, eax
+.LBB1_643:
+	test	r14b, 1
+	je	.LBB1_645
+# %bb.644:
+	vmovdqu	ymm1, ymmword ptr [rdx + rax]
+	vmovdqu	ymm2, ymmword ptr [rdx + rax + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rax + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rax + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rax], ymm1
+	vmovdqu	ymmword ptr [r8 + rax + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rax + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rax + 96], ymm0
+.LBB1_645:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_646
+.LBB1_650:
+	xor	eax, eax
+.LBB1_651:
+	test	r14b, 1
+	je	.LBB1_653
+# %bb.652:
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rax]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rax + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rax + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rax + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rax], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm0
+.LBB1_653:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_654
+.LBB1_658:
+	xor	ebx, ebx
+.LBB1_659:
+	test	r11b, 1
+	je	.LBB1_661
+# %bb.660:
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
+.LBB1_661:
+	cmp	rsi, r10
+	je	.LBB1_3
+	jmp	.LBB1_662
+.LBB1_666:
+	xor	ebx, ebx
+.LBB1_667:
+	test	r10b, 1
+	je	.LBB1_669
+# %bb.668:
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rbx]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rbx + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rbx + 64]
+	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rbx + 96]
+	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm1
+.LBB1_669:
+	cmp	rsi, r11
+	je	.LBB1_3
+	jmp	.LBB1_670
+.LBB1_674:
+	xor	ebx, ebx
+.LBB1_675:
+	test	r11b, 1
+	je	.LBB1_677
+# %bb.676:
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
+.LBB1_677:
+	cmp	rsi, r10
+	je	.LBB1_3
+	jmp	.LBB1_678
+.LBB1_682:
+	xor	ebx, ebx
+.LBB1_683:
+	test	r11b, 1
+	je	.LBB1_685
+# %bb.684:
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
+.LBB1_685:
+	cmp	rsi, r10
+	je	.LBB1_3
+	jmp	.LBB1_686
+.LBB1_690:
+	xor	ebx, ebx
+.LBB1_691:
+	test	r11b, 1
+	je	.LBB1_693
+# %bb.692:
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
+.LBB1_693:
+	cmp	rsi, r10
+	je	.LBB1_3
+	jmp	.LBB1_694
+.LBB1_698:
+	xor	ebx, ebx
+.LBB1_699:
+	test	r11b, 1
+	je	.LBB1_701
+# %bb.700:
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
+.LBB1_701:
+	cmp	rsi, r10
+	je	.LBB1_3
+	jmp	.LBB1_702
+.LBB1_706:
+	xor	ebx, ebx
+.LBB1_707:
+	test	r11b, 1
+	je	.LBB1_709
+# %bb.708:
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
+.LBB1_709:
+	cmp	rsi, r10
+	je	.LBB1_3
+	jmp	.LBB1_710
+.LBB1_714:
+	xor	ebx, ebx
+.LBB1_715:
+	test	r10b, 1
+	je	.LBB1_717
+# %bb.716:
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rbx]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rbx + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rbx + 64]
+	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rbx + 96]
+	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
+	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm1
+.LBB1_717:
+	cmp	rsi, r11
+	je	.LBB1_3
+	jmp	.LBB1_718
+.LBB1_722:
+	xor	ebx, ebx
+.LBB1_723:
+	test	r11b, 1
+	je	.LBB1_725
+# %bb.724:
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
+.LBB1_725:
+	cmp	rsi, r10
+	je	.LBB1_3
+	jmp	.LBB1_726
+.LBB1_730:
+	xor	ebx, ebx
+.LBB1_731:
+	test	r11b, 1
+	je	.LBB1_733
+# %bb.732:
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
+.LBB1_733:
+	cmp	rsi, r10
+	je	.LBB1_3
+	jmp	.LBB1_734
+.Lfunc_end1:
+	.size	arithmetic_arr_scalar_avx2, .Lfunc_end1-arithmetic_arr_scalar_avx2
+                                        # -- End function
+	.globl	arithmetic_scalar_arr_avx2      # -- Begin function arithmetic_scalar_arr_avx2
+	.p2align	4, 0x90
+	.type	arithmetic_scalar_arr_avx2,@function
+arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r14
+	push	rbx
+	and	rsp, -8
+	cmp	sil, 1
+	jg	.LBB2_11
+# %bb.1:
+	test	sil, sil
+	je	.LBB2_28
+# %bb.2:
+	cmp	sil, 1
+	jne	.LBB2_517
+.LBB2_3:
+	cmp	edi, 6
+	jg	.LBB2_36
+# %bb.4:
+	cmp	edi, 3
+	jle	.LBB2_60
+# %bb.5:
+	cmp	edi, 4
+	je	.LBB2_98
+# %bb.6:
+	cmp	edi, 5
+	je	.LBB2_101
+# %bb.7:
+	cmp	edi, 6
+	jne	.LBB2_474
+# %bb.8:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.9:
+	mov	r14d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_10
+# %bb.164:
+	lea	rax, [rcx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB2_254
+# %bb.165:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_254
+.LBB2_10:
+	xor	esi, esi
+.LBB2_398:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_400
+	.p2align	4, 0x90
+.LBB2_399:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_399
+.LBB2_400:
+	cmp	r11, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_401:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_401
+	jmp	.LBB2_474
+.LBB2_11:
+	cmp	sil, 2
+	je	.LBB2_474
+# %bb.12:
+	cmp	sil, 3
+	jne	.LBB2_517
+.LBB2_13:
+	cmp	edi, 6
+	jg	.LBB2_21
+# %bb.14:
+	cmp	edi, 3
+	jle	.LBB2_50
+# %bb.15:
+	cmp	edi, 4
+	je	.LBB2_70
+# %bb.16:
+	cmp	edi, 5
+	je	.LBB2_73
+# %bb.17:
+	cmp	edi, 6
+	jne	.LBB2_517
+# %bb.18:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.19:
+	mov	r11d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_20
+# %bb.134:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_194
+# %bb.135:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_194
+.LBB2_20:
+	xor	esi, esi
+.LBB2_318:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_320
+	.p2align	4, 0x90
+.LBB2_319:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_319
+.LBB2_320:
+	cmp	rdi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_321:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_321
+	jmp	.LBB2_517
+.LBB2_21:
+	cmp	edi, 8
+	jle	.LBB2_55
+# %bb.22:
+	cmp	edi, 9
+	je	.LBB2_76
+# %bb.23:
+	cmp	edi, 11
+	je	.LBB2_79
+# %bb.24:
+	cmp	edi, 12
+	jne	.LBB2_517
+# %bb.25:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.26:
+	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB2_27
+# %bb.137:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_197
+# %bb.138:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_197
+.LBB2_27:
+	xor	edx, edx
+.LBB2_326:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_328
+	.p2align	4, 0x90
+.LBB2_327:                              # =>This Inner Loop Header: Depth=1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_327
+.LBB2_328:
+	cmp	rsi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_329:                              # =>This Inner Loop Header: Depth=1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
+	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
+	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
+	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_329
+	jmp	.LBB2_517
+.LBB2_28:
+	cmp	edi, 6
+	jg	.LBB2_43
+# %bb.29:
+	cmp	edi, 3
+	jle	.LBB2_88
+# %bb.30:
+	cmp	edi, 4
+	je	.LBB2_116
+# %bb.31:
+	cmp	edi, 5
+	je	.LBB2_119
+# %bb.32:
+	cmp	edi, 6
+	jne	.LBB2_3
+# %bb.33:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.34:
+	mov	r14d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_35
+# %bb.224:
+	lea	rax, [rcx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB2_284
+# %bb.225:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_284
+.LBB2_35:
+	xor	esi, esi
+.LBB2_662:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_664
+.LBB2_663:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_663
+.LBB2_664:
+	cmp	r11, 3
+	jb	.LBB2_3
+.LBB2_665:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_665
+	jmp	.LBB2_3
+.LBB2_36:
+	cmp	edi, 8
+	jle	.LBB2_65
+# %bb.37:
+	cmp	edi, 9
+	je	.LBB2_104
+# %bb.38:
+	cmp	edi, 11
+	je	.LBB2_107
+# %bb.39:
+	cmp	edi, 12
+	jne	.LBB2_474
+# %bb.40:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.41:
+	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_42
+# %bb.167:
+	lea	rax, [rcx + 8*r11]
+	cmp	rax, r8
+	jbe	.LBB2_257
+# %bb.168:
+	lea	rax, [r8 + 8*r11]
+	cmp	rax, rcx
+	jbe	.LBB2_257
+.LBB2_42:
+	xor	esi, esi
+.LBB2_406:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB2_408
+	.p2align	4, 0x90
+.LBB2_407:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_407
+.LBB2_408:
+	cmp	rax, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_409:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB2_409
+	jmp	.LBB2_474
+.LBB2_43:
+	cmp	edi, 8
+	jle	.LBB2_93
+# %bb.44:
+	cmp	edi, 9
+	je	.LBB2_122
+# %bb.45:
+	cmp	edi, 11
+	je	.LBB2_125
+# %bb.46:
+	cmp	edi, 12
+	jne	.LBB2_3
+# %bb.47:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.48:
+	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_49
+# %bb.227:
+	lea	rax, [rcx + 8*r11]
+	cmp	rax, r8
+	jbe	.LBB2_287
+# %bb.228:
+	lea	rax, [r8 + 8*r11]
+	cmp	rax, rcx
+	jbe	.LBB2_287
+.LBB2_49:
+	xor	esi, esi
+.LBB2_670:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB2_672
+.LBB2_671:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_671
+.LBB2_672:
+	cmp	rax, 3
+	jb	.LBB2_3
+.LBB2_673:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB2_673
+	jmp	.LBB2_3
+.LBB2_50:
+	cmp	edi, 2
+	je	.LBB2_82
+# %bb.51:
+	cmp	edi, 3
+	jne	.LBB2_517
+# %bb.52:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.53:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_54
+# %bb.140:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_200
+# %bb.141:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_200
+.LBB2_54:
+	xor	esi, esi
+.LBB2_334:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_336
+	.p2align	4, 0x90
+.LBB2_335:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, eax
+	sub	bl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], bl
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_335
+.LBB2_336:
+	cmp	rdi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_337:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_337
+	jmp	.LBB2_517
+.LBB2_55:
+	cmp	edi, 7
+	je	.LBB2_85
+# %bb.56:
+	cmp	edi, 8
+	jne	.LBB2_517
+# %bb.57:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.58:
+	mov	r11, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_59
+# %bb.143:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_203
+# %bb.144:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_203
+.LBB2_59:
+	xor	esi, esi
+.LBB2_342:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_344
+	.p2align	4, 0x90
+.LBB2_343:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_343
+.LBB2_344:
+	cmp	rdi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_345:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_345
+	jmp	.LBB2_517
+.LBB2_60:
+	cmp	edi, 2
+	je	.LBB2_110
+# %bb.61:
+	cmp	edi, 3
+	jne	.LBB2_474
+# %bb.62:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.63:
+	mov	r14b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_64
+# %bb.170:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_260
+# %bb.171:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_260
+.LBB2_64:
+	xor	esi, esi
+.LBB2_414:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_416
+	.p2align	4, 0x90
+.LBB2_415:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_415
+.LBB2_416:
+	cmp	r11, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_417:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_417
+	jmp	.LBB2_474
+.LBB2_65:
+	cmp	edi, 7
+	je	.LBB2_113
+# %bb.66:
+	cmp	edi, 8
+	jne	.LBB2_474
+# %bb.67:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.68:
+	mov	r14, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_69
+# %bb.173:
+	lea	rax, [rcx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB2_263
+# %bb.174:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_263
+.LBB2_69:
+	xor	esi, esi
+.LBB2_422:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_424
+	.p2align	4, 0x90
+.LBB2_423:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_423
+.LBB2_424:
+	cmp	r11, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_425:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_425
+	jmp	.LBB2_474
+.LBB2_70:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.71:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_72
+# %bb.146:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_206
+# %bb.147:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_206
+.LBB2_72:
+	xor	esi, esi
+.LBB2_350:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_352
+	.p2align	4, 0x90
+.LBB2_351:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, eax
+	sub	bx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_351
+.LBB2_352:
+	cmp	rdi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_353:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_353
+	jmp	.LBB2_517
+.LBB2_73:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.74:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_75
+# %bb.149:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_209
+# %bb.150:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_209
+.LBB2_75:
+	xor	esi, esi
+.LBB2_358:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_360
+	.p2align	4, 0x90
+.LBB2_359:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, eax
+	sub	bx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_359
+.LBB2_360:
+	cmp	rdi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_361:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_361
+	jmp	.LBB2_517
+.LBB2_76:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.77:
+	mov	r11, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_78
+# %bb.152:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_212
+# %bb.153:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_212
+.LBB2_78:
+	xor	esi, esi
+.LBB2_366:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_368
+	.p2align	4, 0x90
+.LBB2_367:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_367
+.LBB2_368:
+	cmp	rdi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_369:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_369
+	jmp	.LBB2_517
+.LBB2_79:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.80:
+	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB2_81
+# %bb.155:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_215
+# %bb.156:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_215
+.LBB2_81:
+	xor	edx, edx
+.LBB2_374:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_376
+	.p2align	4, 0x90
+.LBB2_375:                              # =>This Inner Loop Header: Depth=1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_375
+.LBB2_376:
+	cmp	rsi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_377:                              # =>This Inner Loop Header: Depth=1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
+	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
+	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
+	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_377
+	jmp	.LBB2_517
+.LBB2_82:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.83:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_84
+# %bb.158:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_218
+# %bb.159:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_218
+.LBB2_84:
+	xor	esi, esi
+.LBB2_382:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_384
+	.p2align	4, 0x90
+.LBB2_383:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, eax
+	sub	bl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], bl
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_383
+.LBB2_384:
+	cmp	rdi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_385:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_385
+	jmp	.LBB2_517
+.LBB2_85:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.86:
+	mov	r11d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_87
+# %bb.161:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_221
+# %bb.162:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_221
+.LBB2_87:
+	xor	esi, esi
+.LBB2_390:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_392
+	.p2align	4, 0x90
+.LBB2_391:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_391
+.LBB2_392:
+	cmp	rdi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_393:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_393
+	jmp	.LBB2_517
+.LBB2_88:
+	cmp	edi, 2
+	je	.LBB2_128
+# %bb.89:
+	cmp	edi, 3
+	jne	.LBB2_3
+# %bb.90:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.91:
+	mov	r14b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_92
+# %bb.230:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_290
+# %bb.231:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_290
+.LBB2_92:
+	xor	esi, esi
+.LBB2_678:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_680
+.LBB2_679:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_679
+.LBB2_680:
+	cmp	r11, 3
+	jb	.LBB2_3
+.LBB2_681:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_681
+	jmp	.LBB2_3
+.LBB2_93:
+	cmp	edi, 7
+	je	.LBB2_131
+# %bb.94:
+	cmp	edi, 8
+	jne	.LBB2_3
+# %bb.95:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.96:
+	mov	r14, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_97
+# %bb.233:
+	lea	rax, [rcx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB2_293
+# %bb.234:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_293
+.LBB2_97:
+	xor	esi, esi
+.LBB2_686:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_688
+.LBB2_687:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_687
+.LBB2_688:
+	cmp	r11, 3
+	jb	.LBB2_3
+.LBB2_689:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_689
+	jmp	.LBB2_3
+.LBB2_98:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.99:
+	movzx	r14d, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_100
+# %bb.176:
+	lea	rax, [rcx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB2_266
+# %bb.177:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_266
+.LBB2_100:
+	xor	esi, esi
+.LBB2_430:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB2_432
+	.p2align	4, 0x90
+.LBB2_431:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rcx + 2*rsi]
+	add	bx, r14w
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB2_431
+.LBB2_432:
+	cmp	r11, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_433:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_433
+	jmp	.LBB2_474
+.LBB2_101:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.102:
+	movzx	r14d, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_103
+# %bb.179:
+	lea	rax, [rcx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB2_269
+# %bb.180:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_269
+.LBB2_103:
+	xor	esi, esi
+.LBB2_438:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB2_440
+	.p2align	4, 0x90
+.LBB2_439:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rcx + 2*rsi]
+	add	bx, r14w
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB2_439
+.LBB2_440:
+	cmp	r11, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_441:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_441
+	jmp	.LBB2_474
+.LBB2_104:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.105:
+	mov	r14, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_106
+# %bb.182:
+	lea	rax, [rcx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB2_272
+# %bb.183:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_272
+.LBB2_106:
+	xor	esi, esi
+.LBB2_446:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_448
+	.p2align	4, 0x90
+.LBB2_447:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_447
+.LBB2_448:
+	cmp	r11, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_449:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_449
+	jmp	.LBB2_474
+.LBB2_107:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.108:
+	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_109
+# %bb.185:
+	lea	rax, [rcx + 4*r11]
+	cmp	rax, r8
+	jbe	.LBB2_275
+# %bb.186:
+	lea	rax, [r8 + 4*r11]
+	cmp	rax, rcx
+	jbe	.LBB2_275
+.LBB2_109:
+	xor	esi, esi
+.LBB2_454:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB2_456
+	.p2align	4, 0x90
+.LBB2_455:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_455
+.LBB2_456:
+	cmp	rax, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_457:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB2_457
+	jmp	.LBB2_474
+.LBB2_110:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.111:
+	mov	r14b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_112
+# %bb.188:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_278
+# %bb.189:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_278
+.LBB2_112:
+	xor	esi, esi
+.LBB2_462:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_464
+	.p2align	4, 0x90
+.LBB2_463:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_463
+.LBB2_464:
+	cmp	r11, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_465:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_465
+	jmp	.LBB2_474
+.LBB2_113:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.114:
+	mov	r14d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_115
+# %bb.191:
+	lea	rax, [rcx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB2_281
+# %bb.192:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_281
+.LBB2_115:
+	xor	esi, esi
+.LBB2_470:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_472
+	.p2align	4, 0x90
+.LBB2_471:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_471
+.LBB2_472:
+	cmp	r11, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_473:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_473
+	jmp	.LBB2_474
+.LBB2_116:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.117:
+	movzx	r14d, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_118
+# %bb.236:
+	lea	rax, [rcx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB2_296
+# %bb.237:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_296
+.LBB2_118:
+	xor	esi, esi
+.LBB2_694:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB2_696
+.LBB2_695:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rcx + 2*rsi]
+	add	bx, r14w
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB2_695
+.LBB2_696:
+	cmp	r11, 3
+	jb	.LBB2_3
+.LBB2_697:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_697
+	jmp	.LBB2_3
+.LBB2_119:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.120:
+	movzx	r14d, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_121
+# %bb.239:
+	lea	rax, [rcx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB2_299
+# %bb.240:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_299
+.LBB2_121:
+	xor	esi, esi
+.LBB2_702:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB2_704
+.LBB2_703:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rcx + 2*rsi]
+	add	bx, r14w
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB2_703
+.LBB2_704:
+	cmp	r11, 3
+	jb	.LBB2_3
+.LBB2_705:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_705
+	jmp	.LBB2_3
+.LBB2_122:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.123:
+	mov	r14, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_124
+# %bb.242:
+	lea	rax, [rcx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB2_302
+# %bb.243:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_302
+.LBB2_124:
+	xor	esi, esi
+.LBB2_710:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_712
+.LBB2_711:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_711
+.LBB2_712:
+	cmp	r11, 3
+	jb	.LBB2_3
+.LBB2_713:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_713
+	jmp	.LBB2_3
+.LBB2_125:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.126:
+	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_127
+# %bb.245:
+	lea	rax, [rcx + 4*r11]
+	cmp	rax, r8
+	jbe	.LBB2_305
+# %bb.246:
+	lea	rax, [r8 + 4*r11]
+	cmp	rax, rcx
+	jbe	.LBB2_305
+.LBB2_127:
+	xor	esi, esi
+.LBB2_718:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB2_720
+.LBB2_719:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_719
+.LBB2_720:
+	cmp	rax, 3
+	jb	.LBB2_3
+.LBB2_721:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB2_721
+	jmp	.LBB2_3
+.LBB2_128:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.129:
+	mov	r14b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_130
+# %bb.248:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_308
+# %bb.249:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_308
+.LBB2_130:
+	xor	esi, esi
+.LBB2_726:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_728
+.LBB2_727:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_727
+.LBB2_728:
+	cmp	r11, 3
+	jb	.LBB2_3
+.LBB2_729:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_729
+	jmp	.LBB2_3
+.LBB2_131:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.132:
+	mov	r14d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_133
+# %bb.251:
+	lea	rax, [rcx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB2_311
+# %bb.252:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_311
+.LBB2_133:
+	xor	esi, esi
+.LBB2_734:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_736
+.LBB2_735:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_735
+.LBB2_736:
+	cmp	r11, 3
+	jb	.LBB2_3
+.LBB2_737:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_737
+	jmp	.LBB2_3
+.LBB2_194:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r11d
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_314
+# %bb.195:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB2_196:                              # =>This Inner Loop Header: Depth=1
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx + 128]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 160]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 192]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
+	add	rbx, 64
+	add	rdi, 2
+	jne	.LBB2_196
+	jmp	.LBB2_315
+.LBB2_197:
+	mov	edx, eax
+	and	edx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rdx - 16]
+	mov	rbx, rsi
+	shr	rbx, 4
+	add	rbx, 1
+	test	rsi, rsi
+	je	.LBB2_322
+# %bb.198:
+	mov	rsi, rbx
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_199:                              # =>This Inner Loop Header: Depth=1
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
+	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rsi, 2
+	jne	.LBB2_199
+	jmp	.LBB2_323
+.LBB2_200:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_330
+# %bb.201:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB2_202:                              # =>This Inner Loop Header: Depth=1
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx + 128]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 160]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 192]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rbx + 224]
+	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
+	add	rbx, 256
+	add	rdi, 2
+	jne	.LBB2_202
+	jmp	.LBB2_331
+.LBB2_203:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r11
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_338
+# %bb.204:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB2_205:                              # =>This Inner Loop Header: Depth=1
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx + 128]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 160]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 192]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
+	add	rbx, 32
+	add	rdi, 2
+	jne	.LBB2_205
+	jmp	.LBB2_339
+.LBB2_206:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_346
+# %bb.207:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB2_208:                              # =>This Inner Loop Header: Depth=1
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx + 64]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
+	add	rbx, 64
+	add	rdi, 2
+	jne	.LBB2_208
+	jmp	.LBB2_347
+.LBB2_209:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_354
+# %bb.210:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB2_211:                              # =>This Inner Loop Header: Depth=1
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx + 64]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
+	add	rbx, 64
+	add	rdi, 2
+	jne	.LBB2_211
+	jmp	.LBB2_355
+.LBB2_212:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r11
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_362
+# %bb.213:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB2_214:                              # =>This Inner Loop Header: Depth=1
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx + 128]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 160]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 192]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
+	add	rbx, 32
+	add	rdi, 2
+	jne	.LBB2_214
+	jmp	.LBB2_363
+.LBB2_215:
+	mov	edx, eax
+	and	edx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rdx - 32]
+	mov	rbx, rsi
+	shr	rbx, 5
+	add	rbx, 1
+	test	rsi, rsi
+	je	.LBB2_370
+# %bb.216:
+	mov	rsi, rbx
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_217:                              # =>This Inner Loop Header: Depth=1
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
+	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
+	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB2_217
+	jmp	.LBB2_371
+.LBB2_218:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_378
+# %bb.219:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB2_220:                              # =>This Inner Loop Header: Depth=1
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx + 128]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 160]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 192]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rbx + 224]
+	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
+	add	rbx, 256
+	add	rdi, 2
+	jne	.LBB2_220
+	jmp	.LBB2_379
+.LBB2_221:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r11d
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_386
+# %bb.222:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB2_223:                              # =>This Inner Loop Header: Depth=1
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx + 128]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 160]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 192]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
+	add	rbx, 64
+	add	rdi, 2
+	jne	.LBB2_223
+	jmp	.LBB2_387
+.LBB2_254:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastd	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_394
+# %bb.255:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_256:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_256
+	jmp	.LBB2_395
+.LBB2_257:
+	mov	esi, r11d
+	and	esi, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rax, [rsi - 16]
+	mov	r10, rax
+	shr	r10, 4
+	add	r10, 1
+	test	rax, rax
+	je	.LBB2_402
+# %bb.258:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_259:                              # =>This Inner Loop Header: Depth=1
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 64]
+	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rbx + 96]
+	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm5
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx + 128]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 160]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 192]
+	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rbx + 224]
+	vmovupd	ymmword ptr [r8 + 8*rbx + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rbx + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rbx + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rbx + 224], ymm5
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB2_259
+	jmp	.LBB2_403
+.LBB2_260:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	lea	rax, [rsi - 128]
+	mov	r11, rax
+	shr	r11, 7
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_410
+# %bb.261:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_262:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rbx + 224]
+	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
+	add	rbx, 256
+	add	rax, 2
+	jne	.LBB2_262
+	jmp	.LBB2_411
+.LBB2_263:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r14
+	vpbroadcastq	ymm0, xmm0
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_418
+# %bb.264:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_265:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB2_265
+	jmp	.LBB2_419
+.LBB2_266:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastw	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_426
+# %bb.267:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_268:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_268
+	jmp	.LBB2_427
+.LBB2_269:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastw	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_434
+# %bb.270:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_271:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_271
+	jmp	.LBB2_435
+.LBB2_272:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r14
+	vpbroadcastq	ymm0, xmm0
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_442
+# %bb.273:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_274:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB2_274
+	jmp	.LBB2_443
+.LBB2_275:
+	mov	esi, r11d
+	and	esi, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rax, [rsi - 32]
+	mov	r10, rax
+	shr	r10, 5
+	add	r10, 1
+	test	rax, rax
+	je	.LBB2_450
+# %bb.276:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_277:                              # =>This Inner Loop Header: Depth=1
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 64]
+	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rbx + 96]
+	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
+	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm5
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx + 128]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 160]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 192]
+	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rbx + 224]
+	vmovups	ymmword ptr [r8 + 4*rbx + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rbx + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rbx + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rbx + 224], ymm5
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_277
+	jmp	.LBB2_451
+.LBB2_278:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	lea	rax, [rsi - 128]
+	mov	r11, rax
+	shr	r11, 7
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_458
+# %bb.279:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_280:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rbx + 224]
+	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
+	add	rbx, 256
+	add	rax, 2
+	jne	.LBB2_280
+	jmp	.LBB2_459
+.LBB2_281:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastd	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_466
+# %bb.282:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_283:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_283
+	jmp	.LBB2_467
+.LBB2_284:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastd	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_658
+# %bb.285:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_286:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_286
+	jmp	.LBB2_659
+.LBB2_287:
+	mov	esi, r11d
+	and	esi, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rax, [rsi - 16]
+	mov	r10, rax
+	shr	r10, 4
+	add	r10, 1
+	test	rax, rax
+	je	.LBB2_666
+# %bb.288:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_289:                              # =>This Inner Loop Header: Depth=1
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 64]
+	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rbx + 96]
+	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm5
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx + 128]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 160]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 192]
+	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rbx + 224]
+	vmovupd	ymmword ptr [r8 + 8*rbx + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rbx + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rbx + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rbx + 224], ymm5
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB2_289
+	jmp	.LBB2_667
+.LBB2_290:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	lea	rax, [rsi - 128]
+	mov	r11, rax
+	shr	r11, 7
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_674
+# %bb.291:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_292:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rbx + 224]
+	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
+	add	rbx, 256
+	add	rax, 2
+	jne	.LBB2_292
+	jmp	.LBB2_675
+.LBB2_293:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r14
+	vpbroadcastq	ymm0, xmm0
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_682
+# %bb.294:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_295:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB2_295
+	jmp	.LBB2_683
+.LBB2_296:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastw	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_690
+# %bb.297:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_298:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_298
+	jmp	.LBB2_691
+.LBB2_299:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastw	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_698
+# %bb.300:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_301:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_301
+	jmp	.LBB2_699
+.LBB2_302:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r14
+	vpbroadcastq	ymm0, xmm0
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_706
+# %bb.303:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_304:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB2_304
+	jmp	.LBB2_707
+.LBB2_305:
+	mov	esi, r11d
+	and	esi, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rax, [rsi - 32]
+	mov	r10, rax
+	shr	r10, 5
+	add	r10, 1
+	test	rax, rax
+	je	.LBB2_714
+# %bb.306:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_307:                              # =>This Inner Loop Header: Depth=1
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 64]
+	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rbx + 96]
+	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
+	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm5
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx + 128]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 160]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 192]
+	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rbx + 224]
+	vmovups	ymmword ptr [r8 + 4*rbx + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rbx + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rbx + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rbx + 224], ymm5
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_307
+	jmp	.LBB2_715
+.LBB2_308:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	lea	rax, [rsi - 128]
+	mov	r11, rax
+	shr	r11, 7
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_722
+# %bb.309:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_310:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rbx + 224]
+	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
+	add	rbx, 256
+	add	rax, 2
+	jne	.LBB2_310
+	jmp	.LBB2_723
+.LBB2_311:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastd	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_730
+# %bb.312:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_313:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_313
+	jmp	.LBB2_731
+.LBB2_314:
+	xor	ebx, ebx
+.LBB2_315:
+	test	r9b, 1
+	je	.LBB2_317
+# %bb.316:
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
+.LBB2_317:
+	cmp	rsi, r10
+	je	.LBB2_517
+	jmp	.LBB2_318
+.LBB2_322:
+	xor	edi, edi
+.LBB2_323:
+	test	bl, 1
+	je	.LBB2_325
+# %bb.324:
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
+.LBB2_325:
+	cmp	rdx, rax
+	je	.LBB2_517
+	jmp	.LBB2_326
+.LBB2_330:
+	xor	ebx, ebx
+.LBB2_331:
+	test	r9b, 1
+	je	.LBB2_333
+# %bb.332:
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
+.LBB2_333:
+	cmp	rsi, r10
+	je	.LBB2_517
+	jmp	.LBB2_334
+.LBB2_338:
+	xor	ebx, ebx
+.LBB2_339:
+	test	r9b, 1
+	je	.LBB2_341
+# %bb.340:
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
+.LBB2_341:
+	cmp	rsi, r10
+	je	.LBB2_517
+	jmp	.LBB2_342
+.LBB2_346:
+	xor	ebx, ebx
+.LBB2_347:
+	test	r9b, 1
+	je	.LBB2_349
+# %bb.348:
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
+.LBB2_349:
+	cmp	rsi, r10
+	je	.LBB2_517
+	jmp	.LBB2_350
+.LBB2_354:
+	xor	ebx, ebx
+.LBB2_355:
+	test	r9b, 1
+	je	.LBB2_357
+# %bb.356:
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
+.LBB2_357:
+	cmp	rsi, r10
+	je	.LBB2_517
+	jmp	.LBB2_358
+.LBB2_362:
+	xor	ebx, ebx
+.LBB2_363:
+	test	r9b, 1
+	je	.LBB2_365
+# %bb.364:
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
+.LBB2_365:
+	cmp	rsi, r10
+	je	.LBB2_517
+	jmp	.LBB2_366
+.LBB2_370:
+	xor	edi, edi
+.LBB2_371:
+	test	bl, 1
+	je	.LBB2_373
+# %bb.372:
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+.LBB2_373:
+	cmp	rdx, rax
+	je	.LBB2_517
+	jmp	.LBB2_374
+.LBB2_378:
+	xor	ebx, ebx
+.LBB2_379:
+	test	r9b, 1
+	je	.LBB2_381
+# %bb.380:
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
+.LBB2_381:
+	cmp	rsi, r10
+	je	.LBB2_517
+	jmp	.LBB2_382
+.LBB2_386:
+	xor	ebx, ebx
+.LBB2_387:
+	test	r9b, 1
+	je	.LBB2_389
+# %bb.388:
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
+.LBB2_389:
+	cmp	rsi, r10
+	je	.LBB2_517
+	jmp	.LBB2_390
+.LBB2_394:
+	xor	ebx, ebx
+.LBB2_395:
+	test	r11b, 1
+	je	.LBB2_397
+# %bb.396:
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
+.LBB2_397:
+	cmp	rsi, r10
+	je	.LBB2_474
+	jmp	.LBB2_398
+.LBB2_402:
+	xor	ebx, ebx
+.LBB2_403:
+	test	r10b, 1
+	je	.LBB2_405
+# %bb.404:
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 64]
+	vaddpd	ymm1, ymm1, ymmword ptr [rcx + 8*rbx + 96]
+	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm1
+.LBB2_405:
+	cmp	rsi, r11
+	je	.LBB2_474
+	jmp	.LBB2_406
+.LBB2_410:
+	xor	ebx, ebx
+.LBB2_411:
+	test	r11b, 1
+	je	.LBB2_413
+# %bb.412:
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
+.LBB2_413:
+	cmp	rsi, r10
+	je	.LBB2_474
+	jmp	.LBB2_414
+.LBB2_418:
+	xor	ebx, ebx
+.LBB2_419:
+	test	r11b, 1
+	je	.LBB2_421
+# %bb.420:
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
+.LBB2_421:
+	cmp	rsi, r10
+	je	.LBB2_474
+	jmp	.LBB2_422
+.LBB2_426:
+	xor	ebx, ebx
+.LBB2_427:
+	test	r11b, 1
+	je	.LBB2_429
+# %bb.428:
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
+	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
+.LBB2_429:
+	cmp	rsi, r10
+	je	.LBB2_474
+	jmp	.LBB2_430
+.LBB2_434:
+	xor	ebx, ebx
+.LBB2_435:
+	test	r11b, 1
+	je	.LBB2_437
+# %bb.436:
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
+	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
+.LBB2_437:
+	cmp	rsi, r10
+	je	.LBB2_474
+	jmp	.LBB2_438
+.LBB2_442:
+	xor	ebx, ebx
+.LBB2_443:
+	test	r11b, 1
+	je	.LBB2_445
+# %bb.444:
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
+.LBB2_445:
+	cmp	rsi, r10
+	je	.LBB2_474
+	jmp	.LBB2_446
+.LBB2_450:
+	xor	ebx, ebx
+.LBB2_451:
+	test	r10b, 1
+	je	.LBB2_453
+# %bb.452:
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 64]
+	vaddps	ymm1, ymm1, ymmword ptr [rcx + 4*rbx + 96]
+	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
+	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm1
+.LBB2_453:
+	cmp	rsi, r11
+	je	.LBB2_474
+	jmp	.LBB2_454
+.LBB2_458:
+	xor	ebx, ebx
+.LBB2_459:
+	test	r11b, 1
+	je	.LBB2_461
+# %bb.460:
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
+.LBB2_461:
+	cmp	rsi, r10
+	je	.LBB2_474
+	jmp	.LBB2_462
+.LBB2_466:
+	xor	ebx, ebx
+.LBB2_467:
+	test	r11b, 1
+	je	.LBB2_469
+# %bb.468:
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
+.LBB2_469:
+	cmp	rsi, r10
+	jne	.LBB2_470
+.LBB2_474:
+	cmp	edi, 6
+	jg	.LBB2_482
+# %bb.475:
+	cmp	edi, 3
+	jle	.LBB2_489
+# %bb.476:
+	cmp	edi, 4
+	je	.LBB2_499
+# %bb.477:
+	cmp	edi, 5
+	je	.LBB2_502
+# %bb.478:
+	cmp	edi, 6
+	jne	.LBB2_13
+# %bb.479:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.480:
+	mov	r14d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_481
+# %bb.518:
+	lea	rax, [rcx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB2_548
+# %bb.519:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_548
+.LBB2_481:
+	xor	esi, esi
+.LBB2_582:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_584
+	.p2align	4, 0x90
+.LBB2_583:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_583
+.LBB2_584:
+	cmp	r11, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_585:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_585
+	jmp	.LBB2_13
+.LBB2_482:
+	cmp	edi, 8
+	jle	.LBB2_494
+# %bb.483:
+	cmp	edi, 9
+	je	.LBB2_505
+# %bb.484:
+	cmp	edi, 11
+	je	.LBB2_508
+# %bb.485:
+	cmp	edi, 12
+	jne	.LBB2_13
+# %bb.486:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.487:
+	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	r11d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_488
+# %bb.521:
+	lea	rax, [rcx + 8*r11]
+	cmp	rax, r8
+	jbe	.LBB2_551
+# %bb.522:
+	lea	rax, [r8 + 8*r11]
+	cmp	rax, rcx
+	jbe	.LBB2_551
+.LBB2_488:
+	xor	esi, esi
+.LBB2_590:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB2_592
+	.p2align	4, 0x90
+.LBB2_591:                              # =>This Inner Loop Header: Depth=1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_591
+.LBB2_592:
+	cmp	rax, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_593:                              # =>This Inner Loop Header: Depth=1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB2_593
+	jmp	.LBB2_13
+.LBB2_489:
+	cmp	edi, 2
+	je	.LBB2_511
+# %bb.490:
+	cmp	edi, 3
+	jne	.LBB2_13
+# %bb.491:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.492:
+	mov	r14b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_493
+# %bb.524:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_554
+# %bb.525:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_554
+.LBB2_493:
+	xor	esi, esi
+.LBB2_598:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_600
+	.p2align	4, 0x90
+.LBB2_599:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_599
+.LBB2_600:
+	cmp	r11, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_601:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_601
+	jmp	.LBB2_13
+.LBB2_494:
+	cmp	edi, 7
+	je	.LBB2_514
+# %bb.495:
+	cmp	edi, 8
+	jne	.LBB2_13
+# %bb.496:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.497:
+	mov	r14, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_498
+# %bb.527:
+	lea	rax, [rcx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB2_557
+# %bb.528:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_557
+.LBB2_498:
+	xor	esi, esi
+.LBB2_606:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_608
+	.p2align	4, 0x90
+.LBB2_607:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_607
+.LBB2_608:
+	cmp	r11, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_609:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_609
+	jmp	.LBB2_13
+.LBB2_499:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.500:
+	movzx	r14d, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_501
+# %bb.530:
+	lea	rax, [rcx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB2_560
+# %bb.531:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_560
+.LBB2_501:
+	xor	esi, esi
+.LBB2_614:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB2_616
+	.p2align	4, 0x90
+.LBB2_615:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, r14d
+	sub	bx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB2_615
+.LBB2_616:
+	cmp	r11, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_617:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_617
+	jmp	.LBB2_13
+.LBB2_502:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.503:
+	movzx	r14d, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_504
+# %bb.533:
+	lea	rax, [rcx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB2_563
+# %bb.534:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_563
+.LBB2_504:
+	xor	esi, esi
+.LBB2_622:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB2_624
+	.p2align	4, 0x90
+.LBB2_623:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, r14d
+	sub	bx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB2_623
+.LBB2_624:
+	cmp	r11, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_625:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_625
+	jmp	.LBB2_13
+.LBB2_505:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.506:
+	mov	r14, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_507
+# %bb.536:
+	lea	rax, [rcx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB2_566
+# %bb.537:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_566
+.LBB2_507:
+	xor	esi, esi
+.LBB2_630:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_632
+	.p2align	4, 0x90
+.LBB2_631:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_631
+.LBB2_632:
+	cmp	r11, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_633:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_633
+	jmp	.LBB2_13
+.LBB2_508:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.509:
+	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	r11d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_510
+# %bb.539:
+	lea	rax, [rcx + 4*r11]
+	cmp	rax, r8
+	jbe	.LBB2_569
+# %bb.540:
+	lea	rax, [r8 + 4*r11]
+	cmp	rax, rcx
+	jbe	.LBB2_569
+.LBB2_510:
+	xor	esi, esi
+.LBB2_638:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB2_640
+	.p2align	4, 0x90
+.LBB2_639:                              # =>This Inner Loop Header: Depth=1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_639
+.LBB2_640:
+	cmp	rax, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_641:                              # =>This Inner Loop Header: Depth=1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB2_641
+	jmp	.LBB2_13
+.LBB2_511:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.512:
+	mov	r14b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_513
+# %bb.542:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_572
+# %bb.543:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_572
+.LBB2_513:
+	xor	esi, esi
+.LBB2_646:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_648
+	.p2align	4, 0x90
+.LBB2_647:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_647
+.LBB2_648:
+	cmp	r11, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_649:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_649
+	jmp	.LBB2_13
+.LBB2_514:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.515:
+	mov	r14d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_516
+# %bb.545:
+	lea	rax, [rcx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB2_575
+# %bb.546:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_575
+.LBB2_516:
+	xor	esi, esi
+.LBB2_654:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_656
+	.p2align	4, 0x90
+.LBB2_655:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_655
+.LBB2_656:
+	cmp	r11, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_657:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_657
+	jmp	.LBB2_13
+.LBB2_517:
+	lea	rsp, [rbp - 16]
+	pop	rbx
+	pop	r14
+	pop	rbp
+	vzeroupper
+	ret
+.LBB2_548:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastd	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_578
+# %bb.549:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_550:                              # =>This Inner Loop Header: Depth=1
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx + 128]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 160]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 192]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_550
+	jmp	.LBB2_579
+.LBB2_551:
+	mov	esi, r11d
+	and	esi, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rax, [rsi - 16]
+	mov	r10, rax
+	shr	r10, 4
+	add	r10, 1
+	test	rax, rax
+	je	.LBB2_586
+# %bb.552:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_553:                              # =>This Inner Loop Header: Depth=1
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 32]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 64]
+	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rbx + 96]
+	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm5
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx + 128]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 160]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 192]
+	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rbx + 224]
+	vmovupd	ymmword ptr [r8 + 8*rbx + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rbx + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rbx + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rbx + 224], ymm5
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB2_553
+	jmp	.LBB2_587
+.LBB2_554:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	lea	rax, [rsi - 128]
+	mov	r11, rax
+	shr	r11, 7
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_594
+# %bb.555:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_556:                              # =>This Inner Loop Header: Depth=1
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx + 128]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 160]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 192]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rbx + 224]
+	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
+	add	rbx, 256
+	add	rax, 2
+	jne	.LBB2_556
+	jmp	.LBB2_595
+.LBB2_557:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r14
+	vpbroadcastq	ymm0, xmm0
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_602
+# %bb.558:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_559:                              # =>This Inner Loop Header: Depth=1
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx + 128]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 160]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 192]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB2_559
+	jmp	.LBB2_603
+.LBB2_560:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastw	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_610
+# %bb.561:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_562:                              # =>This Inner Loop Header: Depth=1
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx + 64]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_562
+	jmp	.LBB2_611
+.LBB2_563:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastw	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_618
+# %bb.564:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_565:                              # =>This Inner Loop Header: Depth=1
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx + 64]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_565
+	jmp	.LBB2_619
+.LBB2_566:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r14
+	vpbroadcastq	ymm0, xmm0
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_626
+# %bb.567:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_568:                              # =>This Inner Loop Header: Depth=1
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx + 128]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 160]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 192]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB2_568
+	jmp	.LBB2_627
+.LBB2_569:
+	mov	esi, r11d
+	and	esi, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rax, [rsi - 32]
+	mov	r10, rax
+	shr	r10, 5
+	add	r10, 1
+	test	rax, rax
+	je	.LBB2_634
+# %bb.570:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_571:                              # =>This Inner Loop Header: Depth=1
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 32]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 64]
+	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rbx + 96]
+	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
+	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm5
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx + 128]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 160]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 192]
+	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rbx + 224]
+	vmovups	ymmword ptr [r8 + 4*rbx + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rbx + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rbx + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rbx + 224], ymm5
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_571
+	jmp	.LBB2_635
+.LBB2_572:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, r14d
+	vpbroadcastb	ymm0, xmm0
+	lea	rax, [rsi - 128]
+	mov	r11, rax
+	shr	r11, 7
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_642
+# %bb.573:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_574:                              # =>This Inner Loop Header: Depth=1
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx + 128]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 160]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 192]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rbx + 224]
+	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
+	add	rbx, 256
+	add	rax, 2
+	jne	.LBB2_574
+	jmp	.LBB2_643
+.LBB2_575:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r14d
+	vpbroadcastd	ymm0, xmm0
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_650
+# %bb.576:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_577:                              # =>This Inner Loop Header: Depth=1
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx + 128]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 160]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 192]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_577
+	jmp	.LBB2_651
+.LBB2_578:
+	xor	ebx, ebx
+.LBB2_579:
+	test	r11b, 1
+	je	.LBB2_581
+# %bb.580:
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
+.LBB2_581:
+	cmp	rsi, r10
+	je	.LBB2_13
+	jmp	.LBB2_582
+.LBB2_586:
+	xor	ebx, ebx
+.LBB2_587:
+	test	r10b, 1
+	je	.LBB2_589
+# %bb.588:
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 32]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 64]
+	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rbx + 96]
+	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm1
+.LBB2_589:
+	cmp	rsi, r11
+	je	.LBB2_13
+	jmp	.LBB2_590
+.LBB2_594:
+	xor	ebx, ebx
+.LBB2_595:
+	test	r11b, 1
+	je	.LBB2_597
+# %bb.596:
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
+.LBB2_597:
+	cmp	rsi, r10
+	je	.LBB2_13
+	jmp	.LBB2_598
+.LBB2_602:
+	xor	ebx, ebx
+.LBB2_603:
+	test	r11b, 1
+	je	.LBB2_605
+# %bb.604:
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
+.LBB2_605:
+	cmp	rsi, r10
+	je	.LBB2_13
+	jmp	.LBB2_606
+.LBB2_610:
+	xor	ebx, ebx
+.LBB2_611:
+	test	r11b, 1
+	je	.LBB2_613
+# %bb.612:
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
+.LBB2_613:
+	cmp	rsi, r10
+	je	.LBB2_13
+	jmp	.LBB2_614
+.LBB2_618:
+	xor	ebx, ebx
+.LBB2_619:
+	test	r11b, 1
+	je	.LBB2_621
+# %bb.620:
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
+.LBB2_621:
+	cmp	rsi, r10
+	je	.LBB2_13
+	jmp	.LBB2_622
+.LBB2_626:
+	xor	ebx, ebx
+.LBB2_627:
+	test	r11b, 1
+	je	.LBB2_629
+# %bb.628:
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
+.LBB2_629:
+	cmp	rsi, r10
+	je	.LBB2_13
+	jmp	.LBB2_630
+.LBB2_634:
+	xor	ebx, ebx
+.LBB2_635:
+	test	r10b, 1
+	je	.LBB2_637
+# %bb.636:
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 32]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 64]
+	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rbx + 96]
+	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
+	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm1
+.LBB2_637:
+	cmp	rsi, r11
+	je	.LBB2_13
+	jmp	.LBB2_638
+.LBB2_642:
+	xor	ebx, ebx
+.LBB2_643:
+	test	r11b, 1
+	je	.LBB2_645
+# %bb.644:
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
+.LBB2_645:
+	cmp	rsi, r10
+	je	.LBB2_13
+	jmp	.LBB2_646
+.LBB2_650:
+	xor	ebx, ebx
+.LBB2_651:
+	test	r11b, 1
+	je	.LBB2_653
+# %bb.652:
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
+.LBB2_653:
+	cmp	rsi, r10
+	je	.LBB2_13
+	jmp	.LBB2_654
+.LBB2_658:
+	xor	ebx, ebx
+.LBB2_659:
+	test	r11b, 1
+	je	.LBB2_661
+# %bb.660:
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
+.LBB2_661:
+	cmp	rsi, r10
+	je	.LBB2_3
+	jmp	.LBB2_662
+.LBB2_666:
+	xor	ebx, ebx
+.LBB2_667:
+	test	r10b, 1
+	je	.LBB2_669
+# %bb.668:
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 64]
+	vaddpd	ymm1, ymm1, ymmword ptr [rcx + 8*rbx + 96]
+	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm1
+.LBB2_669:
+	cmp	rsi, r11
+	je	.LBB2_3
+	jmp	.LBB2_670
+.LBB2_674:
+	xor	ebx, ebx
+.LBB2_675:
+	test	r11b, 1
+	je	.LBB2_677
+# %bb.676:
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
+.LBB2_677:
+	cmp	rsi, r10
+	je	.LBB2_3
+	jmp	.LBB2_678
+.LBB2_682:
+	xor	ebx, ebx
+.LBB2_683:
+	test	r11b, 1
+	je	.LBB2_685
+# %bb.684:
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
+.LBB2_685:
+	cmp	rsi, r10
+	je	.LBB2_3
+	jmp	.LBB2_686
+.LBB2_690:
+	xor	ebx, ebx
+.LBB2_691:
+	test	r11b, 1
+	je	.LBB2_693
+# %bb.692:
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
+	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
+.LBB2_693:
+	cmp	rsi, r10
+	je	.LBB2_3
+	jmp	.LBB2_694
+.LBB2_698:
+	xor	ebx, ebx
+.LBB2_699:
+	test	r11b, 1
+	je	.LBB2_701
+# %bb.700:
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
+	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rbx + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
+.LBB2_701:
+	cmp	rsi, r10
+	je	.LBB2_3
+	jmp	.LBB2_702
+.LBB2_706:
+	xor	ebx, ebx
+.LBB2_707:
+	test	r11b, 1
+	je	.LBB2_709
+# %bb.708:
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
+.LBB2_709:
+	cmp	rsi, r10
+	je	.LBB2_3
+	jmp	.LBB2_710
+.LBB2_714:
+	xor	ebx, ebx
+.LBB2_715:
+	test	r10b, 1
+	je	.LBB2_717
+# %bb.716:
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 64]
+	vaddps	ymm1, ymm1, ymmword ptr [rcx + 4*rbx + 96]
+	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
+	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm1
+.LBB2_717:
+	cmp	rsi, r11
+	je	.LBB2_3
+	jmp	.LBB2_718
+.LBB2_722:
+	xor	ebx, ebx
+.LBB2_723:
+	test	r11b, 1
+	je	.LBB2_725
+# %bb.724:
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rbx + 96]
+	vmovdqu	ymmword ptr [r8 + rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
+.LBB2_725:
+	cmp	rsi, r10
+	je	.LBB2_3
+	jmp	.LBB2_726
+.LBB2_730:
+	xor	ebx, ebx
+.LBB2_731:
+	test	r11b, 1
+	je	.LBB2_733
+# %bb.732:
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rbx + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
+.LBB2_733:
+	cmp	rsi, r10
+	je	.LBB2_3
+	jmp	.LBB2_734
+.Lfunc_end2:
+	.size	arithmetic_scalar_arr_avx2, .Lfunc_end2-arithmetic_scalar_arr_avx2
+                                        # -- End function
+	.ident	"Ubuntu clang version 11.1.0-6"
+	.section	".note.GNU-stack","",@progbits
+	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s
new file mode 100644
index 00000000000..4b5bdf36b1b
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s
@@ -0,0 +1,13530 @@
+	.text
+	.intel_syntax noprefix
+	.file	"base_arithmetic.cc"
+	.globl	arithmetic_sse4                 # -- Begin function arithmetic_sse4
+	.p2align	4, 0x90
+	.type	arithmetic_sse4,@function
+arithmetic_sse4:                        # @arithmetic_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r14
+	push	rbx
+	and	rsp, -8
+	cmp	sil, 1
+	jg	.LBB0_3
+# %bb.1:
+	test	sil, sil
+	je	.LBB0_5
+# %bb.2:
+	cmp	sil, 1
+	jne	.LBB0_697
+.LBB0_178:
+	cmp	edi, 6
+	jg	.LBB0_191
+# %bb.179:
+	cmp	edi, 3
+	jle	.LBB0_180
+# %bb.185:
+	cmp	edi, 4
+	je	.LBB0_232
+# %bb.186:
+	cmp	edi, 5
+	je	.LBB0_248
+# %bb.187:
+	cmp	edi, 6
+	jne	.LBB0_351
+# %bb.188:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.189:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_264
+# %bb.190:
+	xor	esi, esi
+.LBB0_273:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_275
+	.p2align	4, 0x90
+.LBB0_274:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_274
+.LBB0_275:
+	cmp	r11, 3
+	jb	.LBB0_351
+	.p2align	4, 0x90
+.LBB0_276:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_276
+	jmp	.LBB0_351
+.LBB0_3:
+	cmp	sil, 2
+	je	.LBB0_351
+# %bb.4:
+	cmp	sil, 3
+	jne	.LBB0_697
+.LBB0_524:
+	cmp	edi, 6
+	jg	.LBB0_537
+# %bb.525:
+	cmp	edi, 3
+	jle	.LBB0_526
+# %bb.531:
+	cmp	edi, 4
+	je	.LBB0_578
+# %bb.532:
+	cmp	edi, 5
+	je	.LBB0_594
+# %bb.533:
+	cmp	edi, 6
+	jne	.LBB0_697
+# %bb.534:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.535:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_610
+# %bb.536:
+	xor	esi, esi
+.LBB0_619:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_621
+	.p2align	4, 0x90
+.LBB0_620:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, dword ptr [rdx + 4*rsi]
+	sub	ebx, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], ebx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_620
+.LBB0_621:
+	cmp	rdi, 3
+	jb	.LBB0_697
+	.p2align	4, 0x90
+.LBB0_622:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_622
+	jmp	.LBB0_697
+.LBB0_537:
+	cmp	edi, 8
+	jle	.LBB0_538
+# %bb.543:
+	cmp	edi, 9
+	je	.LBB0_652
+# %bb.544:
+	cmp	edi, 11
+	je	.LBB0_668
+# %bb.545:
+	cmp	edi, 12
+	jne	.LBB0_697
+# %bb.546:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.547:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_684
+# %bb.548:
+	xor	esi, esi
+.LBB0_693:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_695
+	.p2align	4, 0x90
+.LBB0_694:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_694
+.LBB0_695:
+	cmp	rdi, 3
+	jb	.LBB0_697
+	.p2align	4, 0x90
+.LBB0_696:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 8]
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 16]
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 24]
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_696
+	jmp	.LBB0_697
+.LBB0_5:
+	cmp	edi, 6
+	jg	.LBB0_18
+# %bb.6:
+	cmp	edi, 3
+	jle	.LBB0_7
+# %bb.12:
+	cmp	edi, 4
+	je	.LBB0_59
+# %bb.13:
+	cmp	edi, 5
+	je	.LBB0_75
+# %bb.14:
+	cmp	edi, 6
+	jne	.LBB0_178
+# %bb.15:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.16:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_91
+# %bb.17:
+	xor	esi, esi
+.LBB0_100:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_102
+.LBB0_101:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_101
+.LBB0_102:
+	cmp	r11, 3
+	jb	.LBB0_178
+.LBB0_103:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_103
+	jmp	.LBB0_178
+.LBB0_191:
+	cmp	edi, 8
+	jle	.LBB0_192
+# %bb.197:
+	cmp	edi, 9
+	je	.LBB0_306
+# %bb.198:
+	cmp	edi, 11
+	je	.LBB0_322
+# %bb.199:
+	cmp	edi, 12
+	jne	.LBB0_351
+# %bb.200:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.201:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_338
+# %bb.202:
+	xor	esi, esi
+.LBB0_347:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_349
+	.p2align	4, 0x90
+.LBB0_348:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_348
+.LBB0_349:
+	cmp	rax, 3
+	jb	.LBB0_351
+	.p2align	4, 0x90
+.LBB0_350:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 8]
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 16]
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 24]
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_350
+	jmp	.LBB0_351
+.LBB0_18:
+	cmp	edi, 8
+	jle	.LBB0_19
+# %bb.24:
+	cmp	edi, 9
+	je	.LBB0_133
+# %bb.25:
+	cmp	edi, 11
+	je	.LBB0_149
+# %bb.26:
+	cmp	edi, 12
+	jne	.LBB0_178
+# %bb.27:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.28:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_165
+# %bb.29:
+	xor	esi, esi
+.LBB0_174:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_176
+.LBB0_175:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_175
+.LBB0_176:
+	cmp	rax, 3
+	jb	.LBB0_178
+.LBB0_177:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 8]
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 16]
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 24]
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_177
+	jmp	.LBB0_178
+.LBB0_526:
+	cmp	edi, 2
+	je	.LBB0_549
+# %bb.527:
+	cmp	edi, 3
+	jne	.LBB0_697
+# %bb.528:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.529:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_565
+# %bb.530:
+	xor	esi, esi
+.LBB0_574:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_576
+	.p2align	4, 0x90
+.LBB0_575:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, byte ptr [rdx + rsi]
+	sub	bl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], bl
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_575
+.LBB0_576:
+	cmp	rdi, 3
+	jb	.LBB0_697
+	.p2align	4, 0x90
+.LBB0_577:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_577
+	jmp	.LBB0_697
+.LBB0_538:
+	cmp	edi, 7
+	je	.LBB0_623
+# %bb.539:
+	cmp	edi, 8
+	jne	.LBB0_697
+# %bb.540:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.541:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_639
+# %bb.542:
+	xor	esi, esi
+.LBB0_648:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_650
+	.p2align	4, 0x90
+.LBB0_649:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, qword ptr [rdx + 8*rsi]
+	sub	rbx, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rbx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_649
+.LBB0_650:
+	cmp	rdi, 3
+	jb	.LBB0_697
+	.p2align	4, 0x90
+.LBB0_651:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_651
+	jmp	.LBB0_697
+.LBB0_180:
+	cmp	edi, 2
+	je	.LBB0_203
+# %bb.181:
+	cmp	edi, 3
+	jne	.LBB0_351
+# %bb.182:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.183:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_219
+# %bb.184:
+	xor	esi, esi
+.LBB0_228:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_230
+	.p2align	4, 0x90
+.LBB0_229:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_229
+.LBB0_230:
+	cmp	r11, 3
+	jb	.LBB0_351
+	.p2align	4, 0x90
+.LBB0_231:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_231
+	jmp	.LBB0_351
+.LBB0_192:
+	cmp	edi, 7
+	je	.LBB0_277
+# %bb.193:
+	cmp	edi, 8
+	jne	.LBB0_351
+# %bb.194:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.195:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_293
+# %bb.196:
+	xor	esi, esi
+.LBB0_302:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_304
+	.p2align	4, 0x90
+.LBB0_303:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_303
+.LBB0_304:
+	cmp	r11, 3
+	jb	.LBB0_351
+	.p2align	4, 0x90
+.LBB0_305:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_305
+	jmp	.LBB0_351
+.LBB0_578:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.579:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_581
+# %bb.580:
+	xor	esi, esi
+.LBB0_590:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_592
+	.p2align	4, 0x90
+.LBB0_591:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rdx + 2*rsi]
+	sub	bx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_591
+.LBB0_592:
+	cmp	rdi, 3
+	jb	.LBB0_697
+	.p2align	4, 0x90
+.LBB0_593:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_593
+	jmp	.LBB0_697
+.LBB0_594:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.595:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_597
+# %bb.596:
+	xor	esi, esi
+.LBB0_606:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_608
+	.p2align	4, 0x90
+.LBB0_607:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rdx + 2*rsi]
+	sub	bx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_607
+.LBB0_608:
+	cmp	rdi, 3
+	jb	.LBB0_697
+	.p2align	4, 0x90
+.LBB0_609:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_609
+	jmp	.LBB0_697
+.LBB0_652:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.653:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_655
+# %bb.654:
+	xor	esi, esi
+.LBB0_664:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_666
+	.p2align	4, 0x90
+.LBB0_665:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, qword ptr [rdx + 8*rsi]
+	sub	rbx, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rbx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_665
+.LBB0_666:
+	cmp	rdi, 3
+	jb	.LBB0_697
+	.p2align	4, 0x90
+.LBB0_667:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_667
+	jmp	.LBB0_697
+.LBB0_668:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.669:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_671
+# %bb.670:
+	xor	esi, esi
+.LBB0_680:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_682
+	.p2align	4, 0x90
+.LBB0_681:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_681
+.LBB0_682:
+	cmp	rdi, 3
+	jb	.LBB0_697
+	.p2align	4, 0x90
+.LBB0_683:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	movss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 4]
+	movss	dword ptr [r8 + 4*rsi + 4], xmm0
+	movss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 8]
+	movss	dword ptr [r8 + 4*rsi + 8], xmm0
+	movss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 12]
+	movss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_683
+	jmp	.LBB0_697
+.LBB0_549:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.550:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_552
+# %bb.551:
+	xor	esi, esi
+.LBB0_561:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_563
+	.p2align	4, 0x90
+.LBB0_562:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, byte ptr [rdx + rsi]
+	sub	bl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], bl
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_562
+.LBB0_563:
+	cmp	rdi, 3
+	jb	.LBB0_697
+	.p2align	4, 0x90
+.LBB0_564:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_564
+	jmp	.LBB0_697
+.LBB0_623:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.624:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_626
+# %bb.625:
+	xor	esi, esi
+.LBB0_635:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_637
+	.p2align	4, 0x90
+.LBB0_636:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, dword ptr [rdx + 4*rsi]
+	sub	ebx, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], ebx
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_636
+.LBB0_637:
+	cmp	rdi, 3
+	jb	.LBB0_697
+	.p2align	4, 0x90
+.LBB0_638:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_638
+	jmp	.LBB0_697
+.LBB0_7:
+	cmp	edi, 2
+	je	.LBB0_30
+# %bb.8:
+	cmp	edi, 3
+	jne	.LBB0_178
+# %bb.9:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.10:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_46
+# %bb.11:
+	xor	esi, esi
+.LBB0_55:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_57
+.LBB0_56:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_56
+.LBB0_57:
+	cmp	r11, 3
+	jb	.LBB0_178
+.LBB0_58:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_58
+	jmp	.LBB0_178
+.LBB0_19:
+	cmp	edi, 7
+	je	.LBB0_104
+# %bb.20:
+	cmp	edi, 8
+	jne	.LBB0_178
+# %bb.21:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.22:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_120
+# %bb.23:
+	xor	esi, esi
+.LBB0_129:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_131
+.LBB0_130:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_130
+.LBB0_131:
+	cmp	r11, 3
+	jb	.LBB0_178
+.LBB0_132:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_132
+	jmp	.LBB0_178
+.LBB0_232:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.233:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_235
+# %bb.234:
+	xor	esi, esi
+.LBB0_244:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_246
+	.p2align	4, 0x90
+.LBB0_245:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_245
+.LBB0_246:
+	cmp	r11, 3
+	jb	.LBB0_351
+	.p2align	4, 0x90
+.LBB0_247:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_247
+	jmp	.LBB0_351
+.LBB0_248:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.249:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_251
+# %bb.250:
+	xor	esi, esi
+.LBB0_260:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_262
+	.p2align	4, 0x90
+.LBB0_261:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_261
+.LBB0_262:
+	cmp	r11, 3
+	jb	.LBB0_351
+	.p2align	4, 0x90
+.LBB0_263:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_263
+	jmp	.LBB0_351
+.LBB0_306:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.307:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_309
+# %bb.308:
+	xor	esi, esi
+.LBB0_318:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_320
+	.p2align	4, 0x90
+.LBB0_319:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_319
+.LBB0_320:
+	cmp	r11, 3
+	jb	.LBB0_351
+	.p2align	4, 0x90
+.LBB0_321:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_321
+	jmp	.LBB0_351
+.LBB0_322:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.323:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_325
+# %bb.324:
+	xor	esi, esi
+.LBB0_334:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_336
+	.p2align	4, 0x90
+.LBB0_335:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_335
+.LBB0_336:
+	cmp	rax, 3
+	jb	.LBB0_351
+	.p2align	4, 0x90
+.LBB0_337:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 4]
+	movss	dword ptr [r8 + 4*rsi + 4], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 8]
+	movss	dword ptr [r8 + 4*rsi + 8], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 12]
+	movss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_337
+	jmp	.LBB0_351
+.LBB0_203:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.204:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_206
+# %bb.205:
+	xor	esi, esi
+.LBB0_215:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_217
+	.p2align	4, 0x90
+.LBB0_216:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_216
+.LBB0_217:
+	cmp	r11, 3
+	jb	.LBB0_351
+	.p2align	4, 0x90
+.LBB0_218:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_218
+	jmp	.LBB0_351
+.LBB0_277:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.278:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_280
+# %bb.279:
+	xor	esi, esi
+.LBB0_289:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_291
+	.p2align	4, 0x90
+.LBB0_290:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_290
+.LBB0_291:
+	cmp	r11, 3
+	jb	.LBB0_351
+	.p2align	4, 0x90
+.LBB0_292:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_292
+	jmp	.LBB0_351
+.LBB0_59:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.60:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_62
+# %bb.61:
+	xor	esi, esi
+.LBB0_71:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_73
+.LBB0_72:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_72
+.LBB0_73:
+	cmp	r11, 3
+	jb	.LBB0_178
+.LBB0_74:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_74
+	jmp	.LBB0_178
+.LBB0_75:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.76:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_78
+# %bb.77:
+	xor	esi, esi
+.LBB0_87:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_89
+.LBB0_88:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_88
+.LBB0_89:
+	cmp	r11, 3
+	jb	.LBB0_178
+.LBB0_90:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_90
+	jmp	.LBB0_178
+.LBB0_133:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.134:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_136
+# %bb.135:
+	xor	esi, esi
+.LBB0_145:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_147
+.LBB0_146:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_146
+.LBB0_147:
+	cmp	r11, 3
+	jb	.LBB0_178
+.LBB0_148:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_148
+	jmp	.LBB0_178
+.LBB0_149:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.150:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_152
+# %bb.151:
+	xor	esi, esi
+.LBB0_161:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_163
+.LBB0_162:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_162
+.LBB0_163:
+	cmp	rax, 3
+	jb	.LBB0_178
+.LBB0_164:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 4]
+	movss	dword ptr [r8 + 4*rsi + 4], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 8]
+	movss	dword ptr [r8 + 4*rsi + 8], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 12]
+	movss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_164
+	jmp	.LBB0_178
+.LBB0_30:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.31:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_33
+# %bb.32:
+	xor	esi, esi
+.LBB0_42:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_44
+.LBB0_43:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_43
+.LBB0_44:
+	cmp	r11, 3
+	jb	.LBB0_178
+.LBB0_45:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_45
+	jmp	.LBB0_178
+.LBB0_104:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.105:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_107
+# %bb.106:
+	xor	esi, esi
+.LBB0_116:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_118
+.LBB0_117:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_117
+.LBB0_118:
+	cmp	r11, 3
+	jb	.LBB0_178
+.LBB0_119:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_119
+	jmp	.LBB0_178
+.LBB0_610:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_619
+# %bb.611:
+	and	al, dil
+	jne	.LBB0_619
+# %bb.612:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_613
+# %bb.614:
+	mov	rbx, r9
+	and	rbx, -2
+	neg	rbx
+	xor	edi, edi
+.LBB0_615:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rbx, 2
+	jne	.LBB0_615
+	jmp	.LBB0_616
+.LBB0_684:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_693
+# %bb.685:
+	and	al, dil
+	jne	.LBB0_693
+# %bb.686:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_687
+# %bb.688:
+	mov	rbx, r9
+	and	rbx, -2
+	neg	rbx
+	xor	edi, edi
+.LBB0_689:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rdi], xmm0
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm0
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rbx, 2
+	jne	.LBB0_689
+	jmp	.LBB0_690
+.LBB0_565:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_574
+# %bb.566:
+	and	al, dil
+	jne	.LBB0_574
+# %bb.567:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_568
+# %bb.569:
+	mov	rbx, r9
+	and	rbx, -2
+	neg	rbx
+	xor	edi, edi
+.LBB0_570:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	add	rdi, 64
+	add	rbx, 2
+	jne	.LBB0_570
+	jmp	.LBB0_571
+.LBB0_639:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_648
+# %bb.640:
+	and	al, dil
+	jne	.LBB0_648
+# %bb.641:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_642
+# %bb.643:
+	mov	rbx, r9
+	and	rbx, -2
+	neg	rbx
+	xor	edi, edi
+.LBB0_644:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rbx, 2
+	jne	.LBB0_644
+	jmp	.LBB0_645
+.LBB0_581:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_590
+# %bb.582:
+	and	al, dil
+	jne	.LBB0_590
+# %bb.583:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_584
+# %bb.585:
+	mov	rbx, r9
+	and	rbx, -2
+	neg	rbx
+	xor	edi, edi
+.LBB0_586:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rbx, 2
+	jne	.LBB0_586
+	jmp	.LBB0_587
+.LBB0_597:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_606
+# %bb.598:
+	and	al, dil
+	jne	.LBB0_606
+# %bb.599:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_600
+# %bb.601:
+	mov	rbx, r9
+	and	rbx, -2
+	neg	rbx
+	xor	edi, edi
+.LBB0_602:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rbx, 2
+	jne	.LBB0_602
+	jmp	.LBB0_603
+.LBB0_655:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_664
+# %bb.656:
+	and	al, dil
+	jne	.LBB0_664
+# %bb.657:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_658
+# %bb.659:
+	mov	rbx, r9
+	and	rbx, -2
+	neg	rbx
+	xor	edi, edi
+.LBB0_660:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rbx, 2
+	jne	.LBB0_660
+	jmp	.LBB0_661
+.LBB0_671:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_680
+# %bb.672:
+	and	al, dil
+	jne	.LBB0_680
+# %bb.673:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_674
+# %bb.675:
+	mov	rbx, r9
+	and	rbx, -2
+	neg	rbx
+	xor	edi, edi
+.LBB0_676:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rdi], xmm0
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm0
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rbx, 2
+	jne	.LBB0_676
+	jmp	.LBB0_677
+.LBB0_552:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_561
+# %bb.553:
+	and	al, dil
+	jne	.LBB0_561
+# %bb.554:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_555
+# %bb.556:
+	mov	rbx, r9
+	and	rbx, -2
+	neg	rbx
+	xor	edi, edi
+.LBB0_557:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	add	rdi, 64
+	add	rbx, 2
+	jne	.LBB0_557
+	jmp	.LBB0_558
+.LBB0_626:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, bl
+	jne	.LBB0_635
+# %bb.627:
+	and	al, dil
+	jne	.LBB0_635
+# %bb.628:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_629
+# %bb.630:
+	mov	rbx, r9
+	and	rbx, -2
+	neg	rbx
+	xor	edi, edi
+.LBB0_631:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rbx, 2
+	jne	.LBB0_631
+	jmp	.LBB0_632
+.LBB0_264:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_273
+# %bb.265:
+	and	al, r11b
+	jne	.LBB0_273
+# %bb.266:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_267
+# %bb.268:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_269:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rax], xmm2
+	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 32]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 48]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rax + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rax + 48], xmm0
+	add	rax, 16
+	add	rbx, 2
+	jne	.LBB0_269
+	jmp	.LBB0_270
+.LBB0_338:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_347
+# %bb.339:
+	and	al, r11b
+	jne	.LBB0_347
+# %bb.340:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_341
+# %bb.342:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_343:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + 8*rax]
+	movupd	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rax]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rax + 16]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rax], xmm2
+	movupd	xmmword ptr [r8 + 8*rax + 16], xmm0
+	movupd	xmm0, xmmword ptr [rdx + 8*rax + 32]
+	movupd	xmm1, xmmword ptr [rdx + 8*rax + 48]
+	movupd	xmm2, xmmword ptr [rcx + 8*rax + 32]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rax + 48]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rax + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rax + 48], xmm0
+	add	rax, 8
+	add	rbx, 2
+	jne	.LBB0_343
+	jmp	.LBB0_344
+.LBB0_219:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_228
+# %bb.220:
+	and	al, r11b
+	jne	.LBB0_228
+# %bb.221:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_222
+# %bb.223:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_224:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rax]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rax]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rax], xmm2
+	movdqu	xmmword ptr [r8 + rax + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rax + 32]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rax + 48]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rax + 32], xmm2
+	movdqu	xmmword ptr [r8 + rax + 48], xmm0
+	add	rax, 64
+	add	rbx, 2
+	jne	.LBB0_224
+	jmp	.LBB0_225
+.LBB0_293:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_302
+# %bb.294:
+	and	al, r11b
+	jne	.LBB0_302
+# %bb.295:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_296
+# %bb.297:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_298:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rax], xmm2
+	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 32]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 48]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rax + 32], xmm2
+	movdqu	xmmword ptr [r8 + 8*rax + 48], xmm0
+	add	rax, 8
+	add	rbx, 2
+	jne	.LBB0_298
+	jmp	.LBB0_299
+.LBB0_235:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_244
+# %bb.236:
+	and	al, r11b
+	jne	.LBB0_244
+# %bb.237:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_238
+# %bb.239:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_240:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rax], xmm2
+	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 32]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 48]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rax + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rax + 48], xmm0
+	add	rax, 32
+	add	rbx, 2
+	jne	.LBB0_240
+	jmp	.LBB0_241
+.LBB0_251:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_260
+# %bb.252:
+	and	al, r11b
+	jne	.LBB0_260
+# %bb.253:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_254
+# %bb.255:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_256:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rax], xmm2
+	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 32]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 48]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rax + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rax + 48], xmm0
+	add	rax, 32
+	add	rbx, 2
+	jne	.LBB0_256
+	jmp	.LBB0_257
+.LBB0_309:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_318
+# %bb.310:
+	and	al, r11b
+	jne	.LBB0_318
+# %bb.311:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_312
+# %bb.313:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_314:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rax], xmm2
+	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 32]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 48]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rax + 32], xmm2
+	movdqu	xmmword ptr [r8 + 8*rax + 48], xmm0
+	add	rax, 8
+	add	rbx, 2
+	jne	.LBB0_314
+	jmp	.LBB0_315
+.LBB0_325:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_334
+# %bb.326:
+	and	al, r11b
+	jne	.LBB0_334
+# %bb.327:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_328
+# %bb.329:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_330:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rax]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rax]
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rax + 16]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rax], xmm2
+	movups	xmmword ptr [r8 + 4*rax + 16], xmm0
+	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
+	movups	xmm2, xmmword ptr [rcx + 4*rax + 32]
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rax + 48]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rax + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rax + 48], xmm0
+	add	rax, 16
+	add	rbx, 2
+	jne	.LBB0_330
+	jmp	.LBB0_331
+.LBB0_206:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_215
+# %bb.207:
+	and	al, r11b
+	jne	.LBB0_215
+# %bb.208:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_209
+# %bb.210:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_211:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rax]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rax]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rax], xmm2
+	movdqu	xmmword ptr [r8 + rax + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rax + 32]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rax + 48]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rax + 32], xmm2
+	movdqu	xmmword ptr [r8 + rax + 48], xmm0
+	add	rax, 64
+	add	rbx, 2
+	jne	.LBB0_211
+	jmp	.LBB0_212
+.LBB0_280:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_289
+# %bb.281:
+	and	al, r11b
+	jne	.LBB0_289
+# %bb.282:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_283
+# %bb.284:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_285:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rax], xmm2
+	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 32]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 48]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rax + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rax + 48], xmm0
+	add	rax, 16
+	add	rbx, 2
+	jne	.LBB0_285
+	jmp	.LBB0_286
+.LBB0_91:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_100
+# %bb.92:
+	and	al, r11b
+	jne	.LBB0_100
+# %bb.93:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_94
+# %bb.95:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_96:                               # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rax], xmm2
+	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 32]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 48]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rax + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rax + 48], xmm0
+	add	rax, 16
+	add	rbx, 2
+	jne	.LBB0_96
+	jmp	.LBB0_97
+.LBB0_165:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_174
+# %bb.166:
+	and	al, r11b
+	jne	.LBB0_174
+# %bb.167:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_168
+# %bb.169:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_170:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + 8*rax]
+	movupd	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rax]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rax + 16]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rax], xmm2
+	movupd	xmmword ptr [r8 + 8*rax + 16], xmm0
+	movupd	xmm0, xmmword ptr [rdx + 8*rax + 32]
+	movupd	xmm1, xmmword ptr [rdx + 8*rax + 48]
+	movupd	xmm2, xmmword ptr [rcx + 8*rax + 32]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rax + 48]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rax + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rax + 48], xmm0
+	add	rax, 8
+	add	rbx, 2
+	jne	.LBB0_170
+	jmp	.LBB0_171
+.LBB0_46:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_55
+# %bb.47:
+	and	al, r11b
+	jne	.LBB0_55
+# %bb.48:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_49
+# %bb.50:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_51:                               # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rax]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rax]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rax], xmm2
+	movdqu	xmmword ptr [r8 + rax + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rax + 32]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rax + 48]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rax + 32], xmm2
+	movdqu	xmmword ptr [r8 + rax + 48], xmm0
+	add	rax, 64
+	add	rbx, 2
+	jne	.LBB0_51
+	jmp	.LBB0_52
+.LBB0_120:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_129
+# %bb.121:
+	and	al, r11b
+	jne	.LBB0_129
+# %bb.122:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_123
+# %bb.124:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_125:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rax], xmm2
+	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 32]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 48]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rax + 32], xmm2
+	movdqu	xmmword ptr [r8 + 8*rax + 48], xmm0
+	add	rax, 8
+	add	rbx, 2
+	jne	.LBB0_125
+	jmp	.LBB0_126
+.LBB0_62:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_71
+# %bb.63:
+	and	al, r11b
+	jne	.LBB0_71
+# %bb.64:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_65
+# %bb.66:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_67:                               # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rax], xmm2
+	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 32]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 48]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rax + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rax + 48], xmm0
+	add	rax, 32
+	add	rbx, 2
+	jne	.LBB0_67
+	jmp	.LBB0_68
+.LBB0_78:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_87
+# %bb.79:
+	and	al, r11b
+	jne	.LBB0_87
+# %bb.80:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_81
+# %bb.82:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_83:                               # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rax], xmm2
+	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 32]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 48]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rax + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rax + 48], xmm0
+	add	rax, 32
+	add	rbx, 2
+	jne	.LBB0_83
+	jmp	.LBB0_84
+.LBB0_136:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_145
+# %bb.137:
+	and	al, r11b
+	jne	.LBB0_145
+# %bb.138:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_139
+# %bb.140:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_141:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rax], xmm2
+	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 32]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 48]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rax + 32], xmm2
+	movdqu	xmmword ptr [r8 + 8*rax + 48], xmm0
+	add	rax, 8
+	add	rbx, 2
+	jne	.LBB0_141
+	jmp	.LBB0_142
+.LBB0_152:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_161
+# %bb.153:
+	and	al, r11b
+	jne	.LBB0_161
+# %bb.154:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_155
+# %bb.156:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_157:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rax]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rax]
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rax + 16]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rax], xmm2
+	movups	xmmword ptr [r8 + 4*rax + 16], xmm0
+	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
+	movups	xmm2, xmmword ptr [rcx + 4*rax + 32]
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rax + 48]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rax + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rax + 48], xmm0
+	add	rax, 16
+	add	rbx, 2
+	jne	.LBB0_157
+	jmp	.LBB0_158
+.LBB0_33:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_42
+# %bb.34:
+	and	al, r11b
+	jne	.LBB0_42
+# %bb.35:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_36
+# %bb.37:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_38:                               # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rax]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rax]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rax], xmm2
+	movdqu	xmmword ptr [r8 + rax + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rax + 32]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rax + 48]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rax + 32], xmm2
+	movdqu	xmmword ptr [r8 + rax + 48], xmm0
+	add	rax, 64
+	add	rbx, 2
+	jne	.LBB0_38
+	jmp	.LBB0_39
+.LBB0_107:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_116
+# %bb.108:
+	and	al, r11b
+	jne	.LBB0_116
+# %bb.109:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_110
+# %bb.111:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_112:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rax], xmm2
+	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 32]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 48]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rax + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rax + 48], xmm0
+	add	rax, 16
+	add	rbx, 2
+	jne	.LBB0_112
+	jmp	.LBB0_113
+.LBB0_613:
+	xor	edi, edi
+.LBB0_616:
+	test	r9b, 1
+	je	.LBB0_618
+# %bb.617:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_618:
+	cmp	rsi, r10
+	jne	.LBB0_619
+	jmp	.LBB0_697
+.LBB0_687:
+	xor	edi, edi
+.LBB0_690:
+	test	r9b, 1
+	je	.LBB0_692
+# %bb.691:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rdi], xmm0
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_692:
+	cmp	rsi, r10
+	jne	.LBB0_693
+	jmp	.LBB0_697
+.LBB0_568:
+	xor	edi, edi
+.LBB0_571:
+	test	r9b, 1
+	je	.LBB0_573
+# %bb.572:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+.LBB0_573:
+	cmp	rsi, r10
+	jne	.LBB0_574
+	jmp	.LBB0_697
+.LBB0_642:
+	xor	edi, edi
+.LBB0_645:
+	test	r9b, 1
+	je	.LBB0_647
+# %bb.646:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_647:
+	cmp	rsi, r10
+	jne	.LBB0_648
+	jmp	.LBB0_697
+.LBB0_584:
+	xor	edi, edi
+.LBB0_587:
+	test	r9b, 1
+	je	.LBB0_589
+# %bb.588:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+.LBB0_589:
+	cmp	rsi, r10
+	jne	.LBB0_590
+	jmp	.LBB0_697
+.LBB0_600:
+	xor	edi, edi
+.LBB0_603:
+	test	r9b, 1
+	je	.LBB0_605
+# %bb.604:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+.LBB0_605:
+	cmp	rsi, r10
+	jne	.LBB0_606
+	jmp	.LBB0_697
+.LBB0_658:
+	xor	edi, edi
+.LBB0_661:
+	test	r9b, 1
+	je	.LBB0_663
+# %bb.662:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_663:
+	cmp	rsi, r10
+	jne	.LBB0_664
+	jmp	.LBB0_697
+.LBB0_674:
+	xor	edi, edi
+.LBB0_677:
+	test	r9b, 1
+	je	.LBB0_679
+# %bb.678:
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rdi], xmm0
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_679:
+	cmp	rsi, r10
+	jne	.LBB0_680
+	jmp	.LBB0_697
+.LBB0_555:
+	xor	edi, edi
+.LBB0_558:
+	test	r9b, 1
+	je	.LBB0_560
+# %bb.559:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+.LBB0_560:
+	cmp	rsi, r10
+	jne	.LBB0_561
+	jmp	.LBB0_697
+.LBB0_629:
+	xor	edi, edi
+.LBB0_632:
+	test	r9b, 1
+	je	.LBB0_634
+# %bb.633:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_634:
+	cmp	rsi, r10
+	jne	.LBB0_635
+	jmp	.LBB0_697
+.LBB0_267:
+	xor	eax, eax
+.LBB0_270:
+	test	r11b, 1
+	je	.LBB0_272
+# %bb.271:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rax], xmm2
+	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm0
+.LBB0_272:
+	cmp	rsi, r10
+	jne	.LBB0_273
+	jmp	.LBB0_351
+.LBB0_341:
+	xor	eax, eax
+.LBB0_344:
+	test	r11b, 1
+	je	.LBB0_346
+# %bb.345:
+	movupd	xmm0, xmmword ptr [rdx + 8*rax]
+	movupd	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rax]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rax + 16]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rax], xmm2
+	movupd	xmmword ptr [r8 + 8*rax + 16], xmm0
+.LBB0_346:
+	cmp	rsi, r10
+	jne	.LBB0_347
+	jmp	.LBB0_351
+.LBB0_222:
+	xor	eax, eax
+.LBB0_225:
+	test	r11b, 1
+	je	.LBB0_227
+# %bb.226:
+	movdqu	xmm0, xmmword ptr [rdx + rax]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rax]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rax], xmm2
+	movdqu	xmmword ptr [r8 + rax + 16], xmm0
+.LBB0_227:
+	cmp	rsi, r10
+	jne	.LBB0_228
+	jmp	.LBB0_351
+.LBB0_296:
+	xor	eax, eax
+.LBB0_299:
+	test	r11b, 1
+	je	.LBB0_301
+# %bb.300:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rax], xmm2
+	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm0
+.LBB0_301:
+	cmp	rsi, r10
+	jne	.LBB0_302
+	jmp	.LBB0_351
+.LBB0_238:
+	xor	eax, eax
+.LBB0_241:
+	test	r11b, 1
+	je	.LBB0_243
+# %bb.242:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rax], xmm2
+	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm0
+.LBB0_243:
+	cmp	rsi, r10
+	jne	.LBB0_244
+	jmp	.LBB0_351
+.LBB0_254:
+	xor	eax, eax
+.LBB0_257:
+	test	r11b, 1
+	je	.LBB0_259
+# %bb.258:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rax], xmm2
+	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm0
+.LBB0_259:
+	cmp	rsi, r10
+	jne	.LBB0_260
+	jmp	.LBB0_351
+.LBB0_312:
+	xor	eax, eax
+.LBB0_315:
+	test	r11b, 1
+	je	.LBB0_317
+# %bb.316:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rax], xmm2
+	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm0
+.LBB0_317:
+	cmp	rsi, r10
+	jne	.LBB0_318
+	jmp	.LBB0_351
+.LBB0_328:
+	xor	eax, eax
+.LBB0_331:
+	test	r11b, 1
+	je	.LBB0_333
+# %bb.332:
+	movups	xmm0, xmmword ptr [rdx + 4*rax]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rax]
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rax + 16]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rax], xmm2
+	movups	xmmword ptr [r8 + 4*rax + 16], xmm0
+.LBB0_333:
+	cmp	rsi, r10
+	jne	.LBB0_334
+	jmp	.LBB0_351
+.LBB0_209:
+	xor	eax, eax
+.LBB0_212:
+	test	r11b, 1
+	je	.LBB0_214
+# %bb.213:
+	movdqu	xmm0, xmmword ptr [rdx + rax]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rax]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rax], xmm2
+	movdqu	xmmword ptr [r8 + rax + 16], xmm0
+.LBB0_214:
+	cmp	rsi, r10
+	jne	.LBB0_215
+	jmp	.LBB0_351
+.LBB0_283:
+	xor	eax, eax
+.LBB0_286:
+	test	r11b, 1
+	je	.LBB0_288
+# %bb.287:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rax], xmm2
+	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm0
+.LBB0_288:
+	cmp	rsi, r10
+	jne	.LBB0_289
+.LBB0_351:
+	cmp	edi, 6
+	jg	.LBB0_364
+# %bb.352:
+	cmp	edi, 3
+	jle	.LBB0_353
+# %bb.358:
+	cmp	edi, 4
+	je	.LBB0_405
+# %bb.359:
+	cmp	edi, 5
+	je	.LBB0_421
+# %bb.360:
+	cmp	edi, 6
+	jne	.LBB0_524
+# %bb.361:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.362:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_437
+# %bb.363:
+	xor	esi, esi
+	jmp	.LBB0_446
+.LBB0_364:
+	cmp	edi, 8
+	jle	.LBB0_365
+# %bb.370:
+	cmp	edi, 9
+	je	.LBB0_479
+# %bb.371:
+	cmp	edi, 11
+	je	.LBB0_495
+# %bb.372:
+	cmp	edi, 12
+	jne	.LBB0_524
+# %bb.373:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.374:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_511
+# %bb.375:
+	xor	esi, esi
+	jmp	.LBB0_520
+.LBB0_353:
+	cmp	edi, 2
+	je	.LBB0_376
+# %bb.354:
+	cmp	edi, 3
+	jne	.LBB0_524
+# %bb.355:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.356:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_392
+# %bb.357:
+	xor	esi, esi
+	jmp	.LBB0_401
+.LBB0_365:
+	cmp	edi, 7
+	je	.LBB0_450
+# %bb.366:
+	cmp	edi, 8
+	jne	.LBB0_524
+# %bb.367:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.368:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_466
+# %bb.369:
+	xor	esi, esi
+	jmp	.LBB0_475
+.LBB0_405:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.406:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_408
+# %bb.407:
+	xor	esi, esi
+	jmp	.LBB0_417
+.LBB0_421:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.422:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_424
+# %bb.423:
+	xor	esi, esi
+	jmp	.LBB0_433
+.LBB0_479:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.480:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_482
+# %bb.481:
+	xor	esi, esi
+	jmp	.LBB0_491
+.LBB0_495:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.496:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_498
+# %bb.497:
+	xor	esi, esi
+	jmp	.LBB0_507
+.LBB0_376:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.377:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_379
+# %bb.378:
+	xor	esi, esi
+	jmp	.LBB0_388
+.LBB0_450:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.451:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_453
+# %bb.452:
+	xor	esi, esi
+	jmp	.LBB0_462
+.LBB0_697:
+	lea	rsp, [rbp - 16]
+	pop	rbx
+	pop	r14
+	pop	rbp
+	ret
+.LBB0_437:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_446
+# %bb.438:
+	and	al, r11b
+	jne	.LBB0_446
+# %bb.439:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_440
+# %bb.441:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_442:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rax], xmm0
+	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 32]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 48]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rax + 32], xmm0
+	movdqu	xmmword ptr [r8 + 4*rax + 48], xmm1
+	add	rax, 16
+	add	rbx, 2
+	jne	.LBB0_442
+	jmp	.LBB0_443
+.LBB0_511:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_520
+# %bb.512:
+	and	al, r11b
+	jne	.LBB0_520
+# %bb.513:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_514
+# %bb.515:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_516:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + 8*rax]
+	movupd	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rax]
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rax + 16]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rax], xmm0
+	movupd	xmmword ptr [r8 + 8*rax + 16], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 8*rax + 32]
+	movupd	xmm1, xmmword ptr [rdx + 8*rax + 48]
+	movupd	xmm2, xmmword ptr [rcx + 8*rax + 32]
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rax + 48]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rax + 32], xmm0
+	movupd	xmmword ptr [r8 + 8*rax + 48], xmm1
+	add	rax, 8
+	add	rbx, 2
+	jne	.LBB0_516
+	jmp	.LBB0_517
+.LBB0_392:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_401
+# %bb.393:
+	and	al, r11b
+	jne	.LBB0_401
+# %bb.394:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_395
+# %bb.396:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_397:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rax]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rax]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rax + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rax], xmm0
+	movdqu	xmmword ptr [r8 + rax + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rax + 32]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rax + 48]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rax + 32], xmm0
+	movdqu	xmmword ptr [r8 + rax + 48], xmm1
+	add	rax, 64
+	add	rbx, 2
+	jne	.LBB0_397
+	jmp	.LBB0_398
+.LBB0_466:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_475
+# %bb.467:
+	and	al, r11b
+	jne	.LBB0_475
+# %bb.468:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_469
+# %bb.470:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_471:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rax], xmm0
+	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 32]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 48]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rax + 32], xmm0
+	movdqu	xmmword ptr [r8 + 8*rax + 48], xmm1
+	add	rax, 8
+	add	rbx, 2
+	jne	.LBB0_471
+	jmp	.LBB0_472
+.LBB0_408:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_417
+# %bb.409:
+	and	al, r11b
+	jne	.LBB0_417
+# %bb.410:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_411
+# %bb.412:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_413:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rax], xmm0
+	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 32]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 48]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rax + 32], xmm0
+	movdqu	xmmword ptr [r8 + 2*rax + 48], xmm1
+	add	rax, 32
+	add	rbx, 2
+	jne	.LBB0_413
+	jmp	.LBB0_414
+.LBB0_424:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_433
+# %bb.425:
+	and	al, r11b
+	jne	.LBB0_433
+# %bb.426:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_427
+# %bb.428:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_429:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rax], xmm0
+	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 32]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 48]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rax + 32], xmm0
+	movdqu	xmmword ptr [r8 + 2*rax + 48], xmm1
+	add	rax, 32
+	add	rbx, 2
+	jne	.LBB0_429
+	jmp	.LBB0_430
+.LBB0_482:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_491
+# %bb.483:
+	and	al, r11b
+	jne	.LBB0_491
+# %bb.484:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_485
+# %bb.486:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_487:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rax], xmm0
+	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 32]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 48]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rax + 32], xmm0
+	movdqu	xmmword ptr [r8 + 8*rax + 48], xmm1
+	add	rax, 8
+	add	rbx, 2
+	jne	.LBB0_487
+	jmp	.LBB0_488
+.LBB0_498:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_507
+# %bb.499:
+	and	al, r11b
+	jne	.LBB0_507
+# %bb.500:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_501
+# %bb.502:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_503:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rax]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rax]
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rax + 16]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rax], xmm0
+	movups	xmmword ptr [r8 + 4*rax + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
+	movups	xmm2, xmmword ptr [rcx + 4*rax + 32]
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rax + 48]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rax + 32], xmm0
+	movups	xmmword ptr [r8 + 4*rax + 48], xmm1
+	add	rax, 16
+	add	rbx, 2
+	jne	.LBB0_503
+	jmp	.LBB0_504
+.LBB0_379:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_388
+# %bb.380:
+	and	al, r11b
+	jne	.LBB0_388
+# %bb.381:
+	mov	esi, r10d
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_382
+# %bb.383:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_384:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rax]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rax]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rax + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rax], xmm0
+	movdqu	xmmword ptr [r8 + rax + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rax + 32]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rax + 48]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rax + 32], xmm0
+	movdqu	xmmword ptr [r8 + rax + 48], xmm1
+	add	rax, 64
+	add	rbx, 2
+	jne	.LBB0_384
+	jmp	.LBB0_385
+.LBB0_453:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r14b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	bl
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	r11b
+	xor	esi, esi
+	test	r14b, bl
+	jne	.LBB0_462
+# %bb.454:
+	and	al, r11b
+	jne	.LBB0_462
+# %bb.455:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB0_456
+# %bb.457:
+	mov	rbx, r11
+	and	rbx, -2
+	neg	rbx
+	xor	eax, eax
+.LBB0_458:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rax], xmm0
+	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 32]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 48]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rax + 32], xmm0
+	movdqu	xmmword ptr [r8 + 4*rax + 48], xmm1
+	add	rax, 16
+	add	rbx, 2
+	jne	.LBB0_458
+	jmp	.LBB0_459
+.LBB0_440:
+	xor	eax, eax
+.LBB0_443:
+	test	r11b, 1
+	je	.LBB0_445
+# %bb.444:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rax], xmm0
+	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm1
+.LBB0_445:
+	cmp	rsi, r10
+	je	.LBB0_524
+.LBB0_446:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_448
+	.p2align	4, 0x90
+.LBB0_447:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_447
+.LBB0_448:
+	cmp	r11, 3
+	jb	.LBB0_524
+	.p2align	4, 0x90
+.LBB0_449:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_449
+	jmp	.LBB0_524
+.LBB0_514:
+	xor	eax, eax
+.LBB0_517:
+	test	r11b, 1
+	je	.LBB0_519
+# %bb.518:
+	movupd	xmm0, xmmword ptr [rdx + 8*rax]
+	movupd	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rax]
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rax + 16]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rax], xmm0
+	movupd	xmmword ptr [r8 + 8*rax + 16], xmm1
+.LBB0_519:
+	cmp	rsi, r10
+	je	.LBB0_524
+.LBB0_520:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_522
+	.p2align	4, 0x90
+.LBB0_521:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_521
+.LBB0_522:
+	cmp	rax, 3
+	jb	.LBB0_524
+	.p2align	4, 0x90
+.LBB0_523:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 8]
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 16]
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 24]
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_523
+	jmp	.LBB0_524
+.LBB0_395:
+	xor	eax, eax
+.LBB0_398:
+	test	r11b, 1
+	je	.LBB0_400
+# %bb.399:
+	movdqu	xmm0, xmmword ptr [rdx + rax]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rax]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rax + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rax], xmm0
+	movdqu	xmmword ptr [r8 + rax + 16], xmm1
+.LBB0_400:
+	cmp	rsi, r10
+	je	.LBB0_524
+.LBB0_401:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_403
+	.p2align	4, 0x90
+.LBB0_402:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_402
+.LBB0_403:
+	cmp	r11, 3
+	jb	.LBB0_524
+	.p2align	4, 0x90
+.LBB0_404:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_404
+	jmp	.LBB0_524
+.LBB0_469:
+	xor	eax, eax
+.LBB0_472:
+	test	r11b, 1
+	je	.LBB0_474
+# %bb.473:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rax], xmm0
+	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm1
+.LBB0_474:
+	cmp	rsi, r10
+	je	.LBB0_524
+.LBB0_475:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_477
+	.p2align	4, 0x90
+.LBB0_476:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_476
+.LBB0_477:
+	cmp	r11, 3
+	jb	.LBB0_524
+	.p2align	4, 0x90
+.LBB0_478:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_478
+	jmp	.LBB0_524
+.LBB0_411:
+	xor	eax, eax
+.LBB0_414:
+	test	r11b, 1
+	je	.LBB0_416
+# %bb.415:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rax], xmm0
+	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm1
+.LBB0_416:
+	cmp	rsi, r10
+	je	.LBB0_524
+.LBB0_417:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_419
+	.p2align	4, 0x90
+.LBB0_418:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_418
+.LBB0_419:
+	cmp	r11, 3
+	jb	.LBB0_524
+	.p2align	4, 0x90
+.LBB0_420:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_420
+	jmp	.LBB0_524
+.LBB0_427:
+	xor	eax, eax
+.LBB0_430:
+	test	r11b, 1
+	je	.LBB0_432
+# %bb.431:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rax], xmm0
+	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm1
+.LBB0_432:
+	cmp	rsi, r10
+	je	.LBB0_524
+.LBB0_433:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_435
+	.p2align	4, 0x90
+.LBB0_434:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_434
+.LBB0_435:
+	cmp	r11, 3
+	jb	.LBB0_524
+	.p2align	4, 0x90
+.LBB0_436:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_436
+	jmp	.LBB0_524
+.LBB0_485:
+	xor	eax, eax
+.LBB0_488:
+	test	r11b, 1
+	je	.LBB0_490
+# %bb.489:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rax], xmm0
+	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm1
+.LBB0_490:
+	cmp	rsi, r10
+	je	.LBB0_524
+.LBB0_491:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_493
+	.p2align	4, 0x90
+.LBB0_492:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_492
+.LBB0_493:
+	cmp	r11, 3
+	jb	.LBB0_524
+	.p2align	4, 0x90
+.LBB0_494:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_494
+	jmp	.LBB0_524
+.LBB0_501:
+	xor	eax, eax
+.LBB0_504:
+	test	r11b, 1
+	je	.LBB0_506
+# %bb.505:
+	movups	xmm0, xmmword ptr [rdx + 4*rax]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rax]
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rax + 16]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rax], xmm0
+	movups	xmmword ptr [r8 + 4*rax + 16], xmm1
+.LBB0_506:
+	cmp	rsi, r10
+	je	.LBB0_524
+.LBB0_507:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_509
+	.p2align	4, 0x90
+.LBB0_508:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_508
+.LBB0_509:
+	cmp	rax, 3
+	jb	.LBB0_524
+	.p2align	4, 0x90
+.LBB0_510:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	movss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 4]
+	movss	dword ptr [r8 + 4*rsi + 4], xmm0
+	movss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 8]
+	movss	dword ptr [r8 + 4*rsi + 8], xmm0
+	movss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 12]
+	movss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_510
+	jmp	.LBB0_524
+.LBB0_382:
+	xor	eax, eax
+.LBB0_385:
+	test	r11b, 1
+	je	.LBB0_387
+# %bb.386:
+	movdqu	xmm0, xmmword ptr [rdx + rax]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rax]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rax + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rax], xmm0
+	movdqu	xmmword ptr [r8 + rax + 16], xmm1
+.LBB0_387:
+	cmp	rsi, r10
+	je	.LBB0_524
+.LBB0_388:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_390
+	.p2align	4, 0x90
+.LBB0_389:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_389
+.LBB0_390:
+	cmp	r11, 3
+	jb	.LBB0_524
+	.p2align	4, 0x90
+.LBB0_391:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_391
+	jmp	.LBB0_524
+.LBB0_456:
+	xor	eax, eax
+.LBB0_459:
+	test	r11b, 1
+	je	.LBB0_461
+# %bb.460:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rax], xmm0
+	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm1
+.LBB0_461:
+	cmp	rsi, r10
+	je	.LBB0_524
+.LBB0_462:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB0_464
+	.p2align	4, 0x90
+.LBB0_463:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB0_463
+.LBB0_464:
+	cmp	r11, 3
+	jb	.LBB0_524
+	.p2align	4, 0x90
+.LBB0_465:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_465
+	jmp	.LBB0_524
+.LBB0_94:
+	xor	eax, eax
+.LBB0_97:
+	test	r11b, 1
+	je	.LBB0_99
+# %bb.98:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rax], xmm2
+	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm0
+.LBB0_99:
+	cmp	rsi, r10
+	je	.LBB0_178
+	jmp	.LBB0_100
+.LBB0_168:
+	xor	eax, eax
+.LBB0_171:
+	test	r11b, 1
+	je	.LBB0_173
+# %bb.172:
+	movupd	xmm0, xmmword ptr [rdx + 8*rax]
+	movupd	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rax]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rax + 16]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rax], xmm2
+	movupd	xmmword ptr [r8 + 8*rax + 16], xmm0
+.LBB0_173:
+	cmp	rsi, r10
+	je	.LBB0_178
+	jmp	.LBB0_174
+.LBB0_49:
+	xor	eax, eax
+.LBB0_52:
+	test	r11b, 1
+	je	.LBB0_54
+# %bb.53:
+	movdqu	xmm0, xmmword ptr [rdx + rax]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rax]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rax], xmm2
+	movdqu	xmmword ptr [r8 + rax + 16], xmm0
+.LBB0_54:
+	cmp	rsi, r10
+	je	.LBB0_178
+	jmp	.LBB0_55
+.LBB0_123:
+	xor	eax, eax
+.LBB0_126:
+	test	r11b, 1
+	je	.LBB0_128
+# %bb.127:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rax], xmm2
+	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm0
+.LBB0_128:
+	cmp	rsi, r10
+	je	.LBB0_178
+	jmp	.LBB0_129
+.LBB0_65:
+	xor	eax, eax
+.LBB0_68:
+	test	r11b, 1
+	je	.LBB0_70
+# %bb.69:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rax], xmm2
+	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm0
+.LBB0_70:
+	cmp	rsi, r10
+	je	.LBB0_178
+	jmp	.LBB0_71
+.LBB0_81:
+	xor	eax, eax
+.LBB0_84:
+	test	r11b, 1
+	je	.LBB0_86
+# %bb.85:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rax], xmm2
+	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm0
+.LBB0_86:
+	cmp	rsi, r10
+	je	.LBB0_178
+	jmp	.LBB0_87
+.LBB0_139:
+	xor	eax, eax
+.LBB0_142:
+	test	r11b, 1
+	je	.LBB0_144
+# %bb.143:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rax], xmm2
+	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm0
+.LBB0_144:
+	cmp	rsi, r10
+	je	.LBB0_178
+	jmp	.LBB0_145
+.LBB0_155:
+	xor	eax, eax
+.LBB0_158:
+	test	r11b, 1
+	je	.LBB0_160
+# %bb.159:
+	movups	xmm0, xmmword ptr [rdx + 4*rax]
+	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rax]
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rax + 16]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rax], xmm2
+	movups	xmmword ptr [r8 + 4*rax + 16], xmm0
+.LBB0_160:
+	cmp	rsi, r10
+	je	.LBB0_178
+	jmp	.LBB0_161
+.LBB0_36:
+	xor	eax, eax
+.LBB0_39:
+	test	r11b, 1
+	je	.LBB0_41
+# %bb.40:
+	movdqu	xmm0, xmmword ptr [rdx + rax]
+	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rax]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rax], xmm2
+	movdqu	xmmword ptr [r8 + rax + 16], xmm0
+.LBB0_41:
+	cmp	rsi, r10
+	je	.LBB0_178
+	jmp	.LBB0_42
+.LBB0_110:
+	xor	eax, eax
+.LBB0_113:
+	test	r11b, 1
+	je	.LBB0_115
+# %bb.114:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rax], xmm2
+	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm0
+.LBB0_115:
+	cmp	rsi, r10
+	je	.LBB0_178
+	jmp	.LBB0_116
+.Lfunc_end0:
+	.size	arithmetic_sse4, .Lfunc_end0-arithmetic_sse4
+                                        # -- End function
+	.globl	arithmetic_arr_scalar_sse4      # -- Begin function arithmetic_arr_scalar_sse4
+	.p2align	4, 0x90
+	.type	arithmetic_arr_scalar_sse4,@function
+arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r14
+	push	rbx
+	and	rsp, -8
+	cmp	sil, 1
+	jg	.LBB1_11
+# %bb.1:
+	test	sil, sil
+	je	.LBB1_28
+# %bb.2:
+	cmp	sil, 1
+	jne	.LBB1_517
+.LBB1_3:
+	cmp	edi, 6
+	jg	.LBB1_36
+# %bb.4:
+	cmp	edi, 3
+	jle	.LBB1_60
+# %bb.5:
+	cmp	edi, 4
+	je	.LBB1_98
+# %bb.6:
+	cmp	edi, 5
+	je	.LBB1_101
+# %bb.7:
+	cmp	edi, 6
+	jne	.LBB1_474
+# %bb.8:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.9:
+	mov	r14d, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_10
+# %bb.164:
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB1_254
+# %bb.165:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_254
+.LBB1_10:
+	xor	esi, esi
+.LBB1_398:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_400
+	.p2align	4, 0x90
+.LBB1_399:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_399
+.LBB1_400:
+	cmp	r11, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_401:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_401
+	jmp	.LBB1_474
+.LBB1_11:
+	cmp	sil, 2
+	je	.LBB1_474
+# %bb.12:
+	cmp	sil, 3
+	jne	.LBB1_517
+.LBB1_13:
+	cmp	edi, 6
+	jg	.LBB1_21
+# %bb.14:
+	cmp	edi, 3
+	jle	.LBB1_50
+# %bb.15:
+	cmp	edi, 4
+	je	.LBB1_70
+# %bb.16:
+	cmp	edi, 5
+	je	.LBB1_73
+# %bb.17:
+	cmp	edi, 6
+	jne	.LBB1_517
+# %bb.18:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.19:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_20
+# %bb.134:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_194
+# %bb.135:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_194
+.LBB1_20:
+	xor	esi, esi
+.LBB1_318:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_320
+	.p2align	4, 0x90
+.LBB1_319:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, dword ptr [rdx + 4*rsi]
+	sub	ebx, eax
+	mov	dword ptr [r8 + 4*rsi], ebx
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_319
+.LBB1_320:
+	cmp	rdi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_321:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_321
+	jmp	.LBB1_517
+.LBB1_21:
+	cmp	edi, 8
+	jle	.LBB1_55
+# %bb.22:
+	cmp	edi, 9
+	je	.LBB1_76
+# %bb.23:
+	cmp	edi, 11
+	je	.LBB1_79
+# %bb.24:
+	cmp	edi, 12
+	jne	.LBB1_517
+# %bb.25:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.26:
+	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB1_27
+# %bb.137:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_197
+# %bb.138:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_197
+.LBB1_27:
+	xor	ecx, ecx
+.LBB1_326:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_328
+	.p2align	4, 0x90
+.LBB1_327:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_327
+.LBB1_328:
+	cmp	rsi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_329:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_329
+	jmp	.LBB1_517
+.LBB1_28:
+	cmp	edi, 6
+	jg	.LBB1_43
+# %bb.29:
+	cmp	edi, 3
+	jle	.LBB1_88
+# %bb.30:
+	cmp	edi, 4
+	je	.LBB1_116
+# %bb.31:
+	cmp	edi, 5
+	je	.LBB1_119
+# %bb.32:
+	cmp	edi, 6
+	jne	.LBB1_3
+# %bb.33:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.34:
+	mov	r14d, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_35
+# %bb.224:
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB1_284
+# %bb.225:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_284
+.LBB1_35:
+	xor	esi, esi
+.LBB1_662:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_664
+.LBB1_663:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_663
+.LBB1_664:
+	cmp	r11, 3
+	jb	.LBB1_3
+.LBB1_665:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_665
+	jmp	.LBB1_3
+.LBB1_36:
+	cmp	edi, 8
+	jle	.LBB1_65
+# %bb.37:
+	cmp	edi, 9
+	je	.LBB1_104
+# %bb.38:
+	cmp	edi, 11
+	je	.LBB1_107
+# %bb.39:
+	cmp	edi, 12
+	jne	.LBB1_474
+# %bb.40:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.41:
+	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	r11d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_42
+# %bb.167:
+	lea	rax, [rdx + 8*r11]
+	cmp	rax, r8
+	jbe	.LBB1_257
+# %bb.168:
+	lea	rax, [r8 + 8*r11]
+	cmp	rax, rdx
+	jbe	.LBB1_257
+.LBB1_42:
+	xor	esi, esi
+.LBB1_406:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB1_408
+	.p2align	4, 0x90
+.LBB1_407:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_407
+.LBB1_408:
+	cmp	rax, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_409:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB1_409
+	jmp	.LBB1_474
+.LBB1_43:
+	cmp	edi, 8
+	jle	.LBB1_93
+# %bb.44:
+	cmp	edi, 9
+	je	.LBB1_122
+# %bb.45:
+	cmp	edi, 11
+	je	.LBB1_125
+# %bb.46:
+	cmp	edi, 12
+	jne	.LBB1_3
+# %bb.47:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.48:
+	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	r11d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_49
+# %bb.227:
+	lea	rax, [rdx + 8*r11]
+	cmp	rax, r8
+	jbe	.LBB1_287
+# %bb.228:
+	lea	rax, [r8 + 8*r11]
+	cmp	rax, rdx
+	jbe	.LBB1_287
+.LBB1_49:
+	xor	esi, esi
+.LBB1_670:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB1_672
+.LBB1_671:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_671
+.LBB1_672:
+	cmp	rax, 3
+	jb	.LBB1_3
+.LBB1_673:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB1_673
+	jmp	.LBB1_3
+.LBB1_50:
+	cmp	edi, 2
+	je	.LBB1_82
+# %bb.51:
+	cmp	edi, 3
+	jne	.LBB1_517
+# %bb.52:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.53:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_54
+# %bb.140:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_200
+# %bb.141:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_200
+.LBB1_54:
+	xor	esi, esi
+.LBB1_334:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_336
+	.p2align	4, 0x90
+.LBB1_335:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, byte ptr [rdx + rsi]
+	sub	bl, al
+	mov	byte ptr [r8 + rsi], bl
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_335
+.LBB1_336:
+	cmp	rdi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_337:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_337
+	jmp	.LBB1_517
+.LBB1_55:
+	cmp	edi, 7
+	je	.LBB1_85
+# %bb.56:
+	cmp	edi, 8
+	jne	.LBB1_517
+# %bb.57:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.58:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_59
+# %bb.143:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_203
+# %bb.144:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_203
+.LBB1_59:
+	xor	esi, esi
+.LBB1_342:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_344
+	.p2align	4, 0x90
+.LBB1_343:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, qword ptr [rdx + 8*rsi]
+	sub	rbx, rax
+	mov	qword ptr [r8 + 8*rsi], rbx
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_343
+.LBB1_344:
+	cmp	rdi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_345:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_345
+	jmp	.LBB1_517
+.LBB1_60:
+	cmp	edi, 2
+	je	.LBB1_110
+# %bb.61:
+	cmp	edi, 3
+	jne	.LBB1_474
+# %bb.62:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.63:
+	mov	r14b, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_64
+# %bb.170:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_260
+# %bb.171:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_260
+.LBB1_64:
+	xor	esi, esi
+.LBB1_414:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_416
+	.p2align	4, 0x90
+.LBB1_415:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_415
+.LBB1_416:
+	cmp	r11, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_417:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_417
+	jmp	.LBB1_474
+.LBB1_65:
+	cmp	edi, 7
+	je	.LBB1_113
+# %bb.66:
+	cmp	edi, 8
+	jne	.LBB1_474
+# %bb.67:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.68:
+	mov	r14, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_69
+# %bb.173:
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB1_263
+# %bb.174:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_263
+.LBB1_69:
+	xor	esi, esi
+.LBB1_422:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_424
+	.p2align	4, 0x90
+.LBB1_423:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_423
+.LBB1_424:
+	cmp	r11, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_425:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_425
+	jmp	.LBB1_474
+.LBB1_70:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.71:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_72
+# %bb.146:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_206
+# %bb.147:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_206
+.LBB1_72:
+	xor	esi, esi
+.LBB1_350:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_352
+	.p2align	4, 0x90
+.LBB1_351:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rdx + 2*rsi]
+	sub	ebx, eax
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_351
+.LBB1_352:
+	cmp	rdi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_353:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_353
+	jmp	.LBB1_517
+.LBB1_73:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.74:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_75
+# %bb.149:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_209
+# %bb.150:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_209
+.LBB1_75:
+	xor	esi, esi
+.LBB1_358:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_360
+	.p2align	4, 0x90
+.LBB1_359:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, word ptr [rdx + 2*rsi]
+	sub	ebx, eax
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_359
+.LBB1_360:
+	cmp	rdi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_361:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_361
+	jmp	.LBB1_517
+.LBB1_76:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.77:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_78
+# %bb.152:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_212
+# %bb.153:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_212
+.LBB1_78:
+	xor	esi, esi
+.LBB1_366:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_368
+	.p2align	4, 0x90
+.LBB1_367:                              # =>This Inner Loop Header: Depth=1
+	mov	rbx, qword ptr [rdx + 8*rsi]
+	sub	rbx, rax
+	mov	qword ptr [r8 + 8*rsi], rbx
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_367
+.LBB1_368:
+	cmp	rdi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_369:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_369
+	jmp	.LBB1_517
+.LBB1_79:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.80:
+	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB1_81
+# %bb.155:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_215
+# %bb.156:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_215
+.LBB1_81:
+	xor	ecx, ecx
+.LBB1_374:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_376
+	.p2align	4, 0x90
+.LBB1_375:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_375
+.LBB1_376:
+	cmp	rsi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_377:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 4], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 8], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_377
+	jmp	.LBB1_517
+.LBB1_82:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.83:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_84
+# %bb.158:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_218
+# %bb.159:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_218
+.LBB1_84:
+	xor	esi, esi
+.LBB1_382:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_384
+	.p2align	4, 0x90
+.LBB1_383:                              # =>This Inner Loop Header: Depth=1
+	movzx	ebx, byte ptr [rdx + rsi]
+	sub	bl, al
+	mov	byte ptr [r8 + rsi], bl
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_383
+.LBB1_384:
+	cmp	rdi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_385:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_385
+	jmp	.LBB1_517
+.LBB1_85:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.86:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_87
+# %bb.161:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_221
+# %bb.162:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_221
+.LBB1_87:
+	xor	esi, esi
+.LBB1_390:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_392
+	.p2align	4, 0x90
+.LBB1_391:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, dword ptr [rdx + 4*rsi]
+	sub	ebx, eax
+	mov	dword ptr [r8 + 4*rsi], ebx
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_391
+.LBB1_392:
+	cmp	rdi, 3
+	jb	.LBB1_517
+	.p2align	4, 0x90
+.LBB1_393:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_393
+	jmp	.LBB1_517
+.LBB1_88:
+	cmp	edi, 2
+	je	.LBB1_128
+# %bb.89:
+	cmp	edi, 3
+	jne	.LBB1_3
+# %bb.90:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.91:
+	mov	r14b, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_92
+# %bb.230:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_290
+# %bb.231:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_290
+.LBB1_92:
+	xor	esi, esi
+.LBB1_678:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_680
+.LBB1_679:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_679
+.LBB1_680:
+	cmp	r11, 3
+	jb	.LBB1_3
+.LBB1_681:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_681
+	jmp	.LBB1_3
+.LBB1_93:
+	cmp	edi, 7
+	je	.LBB1_131
+# %bb.94:
+	cmp	edi, 8
+	jne	.LBB1_3
+# %bb.95:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.96:
+	mov	r14, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_97
+# %bb.233:
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB1_293
+# %bb.234:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_293
+.LBB1_97:
+	xor	esi, esi
+.LBB1_686:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_688
+.LBB1_687:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_687
+.LBB1_688:
+	cmp	r11, 3
+	jb	.LBB1_3
+.LBB1_689:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_689
+	jmp	.LBB1_3
+.LBB1_98:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.99:
+	movzx	r14d, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_100
+# %bb.176:
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB1_266
+# %bb.177:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_266
+.LBB1_100:
+	xor	esi, esi
+.LBB1_430:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_432
+	.p2align	4, 0x90
+.LBB1_431:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_431
+.LBB1_432:
+	cmp	r11, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_433:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_433
+	jmp	.LBB1_474
+.LBB1_101:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.102:
+	movzx	r14d, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_103
+# %bb.179:
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB1_269
+# %bb.180:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_269
+.LBB1_103:
+	xor	esi, esi
+.LBB1_438:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_440
+	.p2align	4, 0x90
+.LBB1_439:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_439
+.LBB1_440:
+	cmp	r11, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_441:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_441
+	jmp	.LBB1_474
+.LBB1_104:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.105:
+	mov	r14, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_106
+# %bb.182:
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB1_272
+# %bb.183:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_272
+.LBB1_106:
+	xor	esi, esi
+.LBB1_446:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_448
+	.p2align	4, 0x90
+.LBB1_447:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_447
+.LBB1_448:
+	cmp	r11, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_449:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_449
+	jmp	.LBB1_474
+.LBB1_107:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.108:
+	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	r11d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_109
+# %bb.185:
+	lea	rax, [rdx + 4*r11]
+	cmp	rax, r8
+	jbe	.LBB1_275
+# %bb.186:
+	lea	rax, [r8 + 4*r11]
+	cmp	rax, rdx
+	jbe	.LBB1_275
+.LBB1_109:
+	xor	esi, esi
+.LBB1_454:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB1_456
+	.p2align	4, 0x90
+.LBB1_455:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_455
+.LBB1_456:
+	cmp	rax, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_457:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi + 4], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi + 8], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi + 12], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB1_457
+	jmp	.LBB1_474
+.LBB1_110:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.111:
+	mov	r14b, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_112
+# %bb.188:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_278
+# %bb.189:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_278
+.LBB1_112:
+	xor	esi, esi
+.LBB1_462:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_464
+	.p2align	4, 0x90
+.LBB1_463:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_463
+.LBB1_464:
+	cmp	r11, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_465:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_465
+	jmp	.LBB1_474
+.LBB1_113:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.114:
+	mov	r14d, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_115
+# %bb.191:
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB1_281
+# %bb.192:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_281
+.LBB1_115:
+	xor	esi, esi
+.LBB1_470:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_472
+	.p2align	4, 0x90
+.LBB1_471:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_471
+.LBB1_472:
+	cmp	r11, 3
+	jb	.LBB1_474
+	.p2align	4, 0x90
+.LBB1_473:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_473
+	jmp	.LBB1_474
+.LBB1_116:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.117:
+	movzx	r14d, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_118
+# %bb.236:
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB1_296
+# %bb.237:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_296
+.LBB1_118:
+	xor	esi, esi
+.LBB1_694:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_696
+.LBB1_695:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_695
+.LBB1_696:
+	cmp	r11, 3
+	jb	.LBB1_3
+.LBB1_697:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_697
+	jmp	.LBB1_3
+.LBB1_119:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.120:
+	movzx	r14d, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_121
+# %bb.239:
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB1_299
+# %bb.240:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_299
+.LBB1_121:
+	xor	esi, esi
+.LBB1_702:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_704
+.LBB1_703:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_703
+.LBB1_704:
+	cmp	r11, 3
+	jb	.LBB1_3
+.LBB1_705:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_705
+	jmp	.LBB1_3
+.LBB1_122:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.123:
+	mov	r14, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_124
+# %bb.242:
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB1_302
+# %bb.243:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_302
+.LBB1_124:
+	xor	esi, esi
+.LBB1_710:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_712
+.LBB1_711:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_711
+.LBB1_712:
+	cmp	r11, 3
+	jb	.LBB1_3
+.LBB1_713:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_713
+	jmp	.LBB1_3
+.LBB1_125:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.126:
+	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	r11d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_127
+# %bb.245:
+	lea	rax, [rdx + 4*r11]
+	cmp	rax, r8
+	jbe	.LBB1_305
+# %bb.246:
+	lea	rax, [r8 + 4*r11]
+	cmp	rax, rdx
+	jbe	.LBB1_305
+.LBB1_127:
+	xor	esi, esi
+.LBB1_718:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB1_720
+.LBB1_719:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_719
+.LBB1_720:
+	cmp	rax, 3
+	jb	.LBB1_3
+.LBB1_721:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi + 4], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi + 8], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi + 12], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB1_721
+	jmp	.LBB1_3
+.LBB1_128:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.129:
+	mov	r14b, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_130
+# %bb.248:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_308
+# %bb.249:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_308
+.LBB1_130:
+	xor	esi, esi
+.LBB1_726:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_728
+.LBB1_727:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_727
+.LBB1_728:
+	cmp	r11, 3
+	jb	.LBB1_3
+.LBB1_729:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_729
+	jmp	.LBB1_3
+.LBB1_131:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.132:
+	mov	r14d, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_133
+# %bb.251:
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB1_311
+# %bb.252:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_311
+.LBB1_133:
+	xor	esi, esi
+.LBB1_734:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_736
+.LBB1_735:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_735
+.LBB1_736:
+	cmp	r11, 3
+	jb	.LBB1_3
+.LBB1_737:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_737
+	jmp	.LBB1_3
+.LBB1_194:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_314
+# %bb.195:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB1_196:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 48]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
+	add	rbx, 16
+	add	rdi, 2
+	jne	.LBB1_196
+	jmp	.LBB1_315
+.LBB1_197:
+	mov	ecx, eax
+	and	ecx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rcx - 4]
+	mov	rbx, rsi
+	shr	rbx, 2
+	add	rbx, 1
+	test	rsi, rsi
+	je	.LBB1_322
+# %bb.198:
+	mov	rsi, rbx
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_199:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB1_199
+	jmp	.LBB1_323
+.LBB1_200:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	xorpd	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_330
+# %bb.201:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB1_202:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rbx]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 48]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
+	add	rbx, 64
+	add	rdi, 2
+	jne	.LBB1_202
+	jmp	.LBB1_331
+.LBB1_203:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_338
+# %bb.204:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB1_205:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 48]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
+	add	rbx, 8
+	add	rdi, 2
+	jne	.LBB1_205
+	jmp	.LBB1_339
+.LBB1_206:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_346
+# %bb.207:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB1_208:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 48]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
+	add	rbx, 32
+	add	rdi, 2
+	jne	.LBB1_208
+	jmp	.LBB1_347
+.LBB1_209:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_354
+# %bb.210:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB1_211:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 48]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
+	add	rbx, 32
+	add	rdi, 2
+	jne	.LBB1_211
+	jmp	.LBB1_355
+.LBB1_212:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_362
+# %bb.213:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB1_214:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 48]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
+	add	rbx, 8
+	add	rdi, 2
+	jne	.LBB1_214
+	jmp	.LBB1_363
+.LBB1_215:
+	mov	ecx, eax
+	and	ecx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rcx - 8]
+	mov	rbx, rsi
+	shr	rbx, 3
+	add	rbx, 1
+	test	rsi, rsi
+	je	.LBB1_370
+# %bb.216:
+	mov	rsi, rbx
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_217:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB1_217
+	jmp	.LBB1_371
+.LBB1_218:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	xorpd	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_378
+# %bb.219:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB1_220:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rbx]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 48]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
+	add	rbx, 64
+	add	rdi, 2
+	jne	.LBB1_220
+	jmp	.LBB1_379
+.LBB1_221:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_386
+# %bb.222:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB1_223:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 48]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
+	add	rbx, 16
+	add	rdi, 2
+	jne	.LBB1_223
+	jmp	.LBB1_387
+.LBB1_254:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r14d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_394
+# %bb.255:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_256:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB1_256
+	jmp	.LBB1_395
+.LBB1_257:
+	mov	esi, r11d
+	and	esi, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rax, [rsi - 4]
+	mov	r10, rax
+	shr	r10, 2
+	add	r10, 1
+	test	rax, rax
+	je	.LBB1_402
+# %bb.258:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_259:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rdx + 8*rbx]
+	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rbx], xmm2
+	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
+	movupd	xmm2, xmmword ptr [rdx + 8*rbx + 32]
+	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 48]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rbx + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rbx + 48], xmm3
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB1_259
+	jmp	.LBB1_403
+.LBB1_260:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	eax, r14b
+	movd	xmm0, eax
+	xorpd	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_410
+# %bb.261:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_262:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rbx]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_262
+	jmp	.LBB1_411
+.LBB1_263:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r14
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_418
+# %bb.264:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_265:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB1_265
+	jmp	.LBB1_419
+.LBB1_266:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, r14d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_426
+# %bb.267:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_268:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB1_268
+	jmp	.LBB1_427
+.LBB1_269:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, r14d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_434
+# %bb.270:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_271:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB1_271
+	jmp	.LBB1_435
+.LBB1_272:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r14
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_442
+# %bb.273:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_274:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB1_274
+	jmp	.LBB1_443
+.LBB1_275:
+	mov	esi, r11d
+	and	esi, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rax, [rsi - 8]
+	mov	r10, rax
+	shr	r10, 3
+	add	r10, 1
+	test	rax, rax
+	je	.LBB1_450
+# %bb.276:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_277:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rdx + 4*rbx]
+	movups	xmm3, xmmword ptr [rdx + 4*rbx + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rbx], xmm2
+	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
+	movups	xmm2, xmmword ptr [rdx + 4*rbx + 32]
+	movups	xmm3, xmmword ptr [rdx + 4*rbx + 48]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rbx + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rbx + 48], xmm3
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB1_277
+	jmp	.LBB1_451
+.LBB1_278:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	eax, r14b
+	movd	xmm0, eax
+	xorpd	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_458
+# %bb.279:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_280:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rbx]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_280
+	jmp	.LBB1_459
+.LBB1_281:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r14d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_466
+# %bb.282:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_283:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB1_283
+	jmp	.LBB1_467
+.LBB1_284:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r14d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_658
+# %bb.285:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_286:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB1_286
+	jmp	.LBB1_659
+.LBB1_287:
+	mov	esi, r11d
+	and	esi, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rax, [rsi - 4]
+	mov	r10, rax
+	shr	r10, 2
+	add	r10, 1
+	test	rax, rax
+	je	.LBB1_666
+# %bb.288:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_289:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rdx + 8*rbx]
+	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rbx], xmm2
+	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
+	movupd	xmm2, xmmword ptr [rdx + 8*rbx + 32]
+	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 48]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rbx + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rbx + 48], xmm3
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB1_289
+	jmp	.LBB1_667
+.LBB1_290:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	eax, r14b
+	movd	xmm0, eax
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_674
+# %bb.291:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_292:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rbx]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_292
+	jmp	.LBB1_675
+.LBB1_293:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r14
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_682
+# %bb.294:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_295:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB1_295
+	jmp	.LBB1_683
+.LBB1_296:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, r14d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_690
+# %bb.297:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_298:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB1_298
+	jmp	.LBB1_691
+.LBB1_299:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, r14d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_698
+# %bb.300:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_301:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB1_301
+	jmp	.LBB1_699
+.LBB1_302:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r14
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_706
+# %bb.303:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_304:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB1_304
+	jmp	.LBB1_707
+.LBB1_305:
+	mov	esi, r11d
+	and	esi, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rax, [rsi - 8]
+	mov	r10, rax
+	shr	r10, 3
+	add	r10, 1
+	test	rax, rax
+	je	.LBB1_714
+# %bb.306:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_307:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rdx + 4*rbx]
+	movups	xmm3, xmmword ptr [rdx + 4*rbx + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rbx], xmm2
+	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
+	movups	xmm2, xmmword ptr [rdx + 4*rbx + 32]
+	movups	xmm3, xmmword ptr [rdx + 4*rbx + 48]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rbx + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rbx + 48], xmm3
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB1_307
+	jmp	.LBB1_715
+.LBB1_308:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	eax, r14b
+	movd	xmm0, eax
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_722
+# %bb.309:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_310:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rbx]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_310
+	jmp	.LBB1_723
+.LBB1_311:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r14d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_730
+# %bb.312:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_313:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB1_313
+	jmp	.LBB1_731
+.LBB1_314:
+	xor	ebx, ebx
+.LBB1_315:
+	test	r9b, 1
+	je	.LBB1_317
+# %bb.316:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+.LBB1_317:
+	cmp	rsi, r10
+	je	.LBB1_517
+	jmp	.LBB1_318
+.LBB1_322:
+	xor	edi, edi
+.LBB1_323:
+	test	bl, 1
+	je	.LBB1_325
+# %bb.324:
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+.LBB1_325:
+	cmp	rcx, rax
+	je	.LBB1_517
+	jmp	.LBB1_326
+.LBB1_330:
+	xor	ebx, ebx
+.LBB1_331:
+	test	r9b, 1
+	je	.LBB1_333
+# %bb.332:
+	movdqu	xmm1, xmmword ptr [rdx + rbx]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+.LBB1_333:
+	cmp	rsi, r10
+	je	.LBB1_517
+	jmp	.LBB1_334
+.LBB1_338:
+	xor	ebx, ebx
+.LBB1_339:
+	test	r9b, 1
+	je	.LBB1_341
+# %bb.340:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+.LBB1_341:
+	cmp	rsi, r10
+	je	.LBB1_517
+	jmp	.LBB1_342
+.LBB1_346:
+	xor	ebx, ebx
+.LBB1_347:
+	test	r9b, 1
+	je	.LBB1_349
+# %bb.348:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+.LBB1_349:
+	cmp	rsi, r10
+	je	.LBB1_517
+	jmp	.LBB1_350
+.LBB1_354:
+	xor	ebx, ebx
+.LBB1_355:
+	test	r9b, 1
+	je	.LBB1_357
+# %bb.356:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+.LBB1_357:
+	cmp	rsi, r10
+	je	.LBB1_517
+	jmp	.LBB1_358
+.LBB1_362:
+	xor	ebx, ebx
+.LBB1_363:
+	test	r9b, 1
+	je	.LBB1_365
+# %bb.364:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+.LBB1_365:
+	cmp	rsi, r10
+	je	.LBB1_517
+	jmp	.LBB1_366
+.LBB1_370:
+	xor	edi, edi
+.LBB1_371:
+	test	bl, 1
+	je	.LBB1_373
+# %bb.372:
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+.LBB1_373:
+	cmp	rcx, rax
+	je	.LBB1_517
+	jmp	.LBB1_374
+.LBB1_378:
+	xor	ebx, ebx
+.LBB1_379:
+	test	r9b, 1
+	je	.LBB1_381
+# %bb.380:
+	movdqu	xmm1, xmmword ptr [rdx + rbx]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+.LBB1_381:
+	cmp	rsi, r10
+	je	.LBB1_517
+	jmp	.LBB1_382
+.LBB1_386:
+	xor	ebx, ebx
+.LBB1_387:
+	test	r9b, 1
+	je	.LBB1_389
+# %bb.388:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+.LBB1_389:
+	cmp	rsi, r10
+	je	.LBB1_517
+	jmp	.LBB1_390
+.LBB1_394:
+	xor	ebx, ebx
+.LBB1_395:
+	test	r11b, 1
+	je	.LBB1_397
+# %bb.396:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+.LBB1_397:
+	cmp	rsi, r10
+	je	.LBB1_474
+	jmp	.LBB1_398
+.LBB1_402:
+	xor	ebx, ebx
+.LBB1_403:
+	test	r10b, 1
+	je	.LBB1_405
+# %bb.404:
+	movupd	xmm2, xmmword ptr [rdx + 8*rbx]
+	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rbx], xmm2
+	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
+.LBB1_405:
+	cmp	rsi, r11
+	je	.LBB1_474
+	jmp	.LBB1_406
+.LBB1_410:
+	xor	ebx, ebx
+.LBB1_411:
+	test	r11b, 1
+	je	.LBB1_413
+# %bb.412:
+	movdqu	xmm1, xmmword ptr [rdx + rbx]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+.LBB1_413:
+	cmp	rsi, r10
+	je	.LBB1_474
+	jmp	.LBB1_414
+.LBB1_418:
+	xor	ebx, ebx
+.LBB1_419:
+	test	r11b, 1
+	je	.LBB1_421
+# %bb.420:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+.LBB1_421:
+	cmp	rsi, r10
+	je	.LBB1_474
+	jmp	.LBB1_422
+.LBB1_426:
+	xor	ebx, ebx
+.LBB1_427:
+	test	r11b, 1
+	je	.LBB1_429
+# %bb.428:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+.LBB1_429:
+	cmp	rsi, r10
+	je	.LBB1_474
+	jmp	.LBB1_430
+.LBB1_434:
+	xor	ebx, ebx
+.LBB1_435:
+	test	r11b, 1
+	je	.LBB1_437
+# %bb.436:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+.LBB1_437:
+	cmp	rsi, r10
+	je	.LBB1_474
+	jmp	.LBB1_438
+.LBB1_442:
+	xor	ebx, ebx
+.LBB1_443:
+	test	r11b, 1
+	je	.LBB1_445
+# %bb.444:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+.LBB1_445:
+	cmp	rsi, r10
+	je	.LBB1_474
+	jmp	.LBB1_446
+.LBB1_450:
+	xor	ebx, ebx
+.LBB1_451:
+	test	r10b, 1
+	je	.LBB1_453
+# %bb.452:
+	movups	xmm2, xmmword ptr [rdx + 4*rbx]
+	movups	xmm3, xmmword ptr [rdx + 4*rbx + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rbx], xmm2
+	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
+.LBB1_453:
+	cmp	rsi, r11
+	je	.LBB1_474
+	jmp	.LBB1_454
+.LBB1_458:
+	xor	ebx, ebx
+.LBB1_459:
+	test	r11b, 1
+	je	.LBB1_461
+# %bb.460:
+	movdqu	xmm1, xmmword ptr [rdx + rbx]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+.LBB1_461:
+	cmp	rsi, r10
+	je	.LBB1_474
+	jmp	.LBB1_462
+.LBB1_466:
+	xor	ebx, ebx
+.LBB1_467:
+	test	r11b, 1
+	je	.LBB1_469
+# %bb.468:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+.LBB1_469:
+	cmp	rsi, r10
+	jne	.LBB1_470
+.LBB1_474:
+	cmp	edi, 6
+	jg	.LBB1_482
+# %bb.475:
+	cmp	edi, 3
+	jle	.LBB1_489
+# %bb.476:
+	cmp	edi, 4
+	je	.LBB1_499
+# %bb.477:
+	cmp	edi, 5
+	je	.LBB1_502
+# %bb.478:
+	cmp	edi, 6
+	jne	.LBB1_13
+# %bb.479:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.480:
+	mov	r14d, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_481
+# %bb.518:
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB1_548
+# %bb.519:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_548
+.LBB1_481:
+	xor	esi, esi
+.LBB1_582:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_584
+	.p2align	4, 0x90
+.LBB1_583:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_583
+.LBB1_584:
+	cmp	r11, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_585:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_585
+	jmp	.LBB1_13
+.LBB1_482:
+	cmp	edi, 8
+	jle	.LBB1_494
+# %bb.483:
+	cmp	edi, 9
+	je	.LBB1_505
+# %bb.484:
+	cmp	edi, 11
+	je	.LBB1_508
+# %bb.485:
+	cmp	edi, 12
+	jne	.LBB1_13
+# %bb.486:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.487:
+	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	r11d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_488
+# %bb.521:
+	lea	rax, [rdx + 8*r11]
+	cmp	rax, r8
+	jbe	.LBB1_551
+# %bb.522:
+	lea	rax, [r8 + 8*r11]
+	cmp	rax, rdx
+	jbe	.LBB1_551
+.LBB1_488:
+	xor	esi, esi
+.LBB1_590:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB1_592
+	.p2align	4, 0x90
+.LBB1_591:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_591
+.LBB1_592:
+	cmp	rax, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_593:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB1_593
+	jmp	.LBB1_13
+.LBB1_489:
+	cmp	edi, 2
+	je	.LBB1_511
+# %bb.490:
+	cmp	edi, 3
+	jne	.LBB1_13
+# %bb.491:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.492:
+	mov	r14b, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_493
+# %bb.524:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_554
+# %bb.525:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_554
+.LBB1_493:
+	xor	esi, esi
+.LBB1_598:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_600
+	.p2align	4, 0x90
+.LBB1_599:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_599
+.LBB1_600:
+	cmp	r11, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_601:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_601
+	jmp	.LBB1_13
+.LBB1_494:
+	cmp	edi, 7
+	je	.LBB1_514
+# %bb.495:
+	cmp	edi, 8
+	jne	.LBB1_13
+# %bb.496:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.497:
+	mov	r14, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_498
+# %bb.527:
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB1_557
+# %bb.528:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_557
+.LBB1_498:
+	xor	esi, esi
+.LBB1_606:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_608
+	.p2align	4, 0x90
+.LBB1_607:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_607
+.LBB1_608:
+	cmp	r11, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_609:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_609
+	jmp	.LBB1_13
+.LBB1_499:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.500:
+	movzx	r14d, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_501
+# %bb.530:
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB1_560
+# %bb.531:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_560
+.LBB1_501:
+	xor	esi, esi
+.LBB1_614:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_616
+	.p2align	4, 0x90
+.LBB1_615:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_615
+.LBB1_616:
+	cmp	r11, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_617:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_617
+	jmp	.LBB1_13
+.LBB1_502:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.503:
+	movzx	r14d, word ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_504
+# %bb.533:
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB1_563
+# %bb.534:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_563
+.LBB1_504:
+	xor	esi, esi
+.LBB1_622:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_624
+	.p2align	4, 0x90
+.LBB1_623:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_623
+.LBB1_624:
+	cmp	r11, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_625:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	eax, r14d
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_625
+	jmp	.LBB1_13
+.LBB1_505:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.506:
+	mov	r14, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_507
+# %bb.536:
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB1_566
+# %bb.537:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_566
+.LBB1_507:
+	xor	esi, esi
+.LBB1_630:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_632
+	.p2align	4, 0x90
+.LBB1_631:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_631
+.LBB1_632:
+	cmp	r11, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_633:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_633
+	jmp	.LBB1_13
+.LBB1_508:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.509:
+	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	r11d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_510
+# %bb.539:
+	lea	rax, [rdx + 4*r11]
+	cmp	rax, r8
+	jbe	.LBB1_569
+# %bb.540:
+	lea	rax, [r8 + 4*r11]
+	cmp	rax, rdx
+	jbe	.LBB1_569
+.LBB1_510:
+	xor	esi, esi
+.LBB1_638:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB1_640
+	.p2align	4, 0x90
+.LBB1_639:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_639
+.LBB1_640:
+	cmp	rax, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_641:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi + 4], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi + 8], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi + 12], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB1_641
+	jmp	.LBB1_13
+.LBB1_511:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.512:
+	mov	r14b, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_513
+# %bb.542:
+	lea	rax, [rdx + r10]
+	cmp	rax, r8
+	jbe	.LBB1_572
+# %bb.543:
+	lea	rax, [r8 + r10]
+	cmp	rax, rdx
+	jbe	.LBB1_572
+.LBB1_513:
+	xor	esi, esi
+.LBB1_646:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_648
+	.p2align	4, 0x90
+.LBB1_647:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_647
+.LBB1_648:
+	cmp	r11, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_649:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_649
+	jmp	.LBB1_13
+.LBB1_514:
+	test	r9d, r9d
+	jle	.LBB1_517
+# %bb.515:
+	mov	r14d, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_516
+# %bb.545:
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB1_575
+# %bb.546:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rdx
+	jbe	.LBB1_575
+.LBB1_516:
+	xor	esi, esi
+.LBB1_654:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB1_656
+	.p2align	4, 0x90
+.LBB1_655:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB1_655
+.LBB1_656:
+	cmp	r11, 3
+	jb	.LBB1_13
+	.p2align	4, 0x90
+.LBB1_657:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_657
+	jmp	.LBB1_13
+.LBB1_517:
+	lea	rsp, [rbp - 16]
+	pop	rbx
+	pop	r14
+	pop	rbp
+	ret
+.LBB1_548:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r14d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_578
+# %bb.549:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_550:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 48]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB1_550
+	jmp	.LBB1_579
+.LBB1_551:
+	mov	esi, r11d
+	and	esi, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rax, [rsi - 4]
+	mov	r10, rax
+	shr	r10, 2
+	add	r10, 1
+	test	rax, rax
+	je	.LBB1_586
+# %bb.552:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_553:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rdx + 8*rbx]
+	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 16]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rbx], xmm2
+	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
+	movupd	xmm2, xmmword ptr [rdx + 8*rbx + 32]
+	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 48]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rbx + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rbx + 48], xmm3
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB1_553
+	jmp	.LBB1_587
+.LBB1_554:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	eax, r14b
+	movd	xmm0, eax
+	xorpd	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_594
+# %bb.555:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_556:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rbx]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 48]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_556
+	jmp	.LBB1_595
+.LBB1_557:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r14
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_602
+# %bb.558:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_559:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 48]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB1_559
+	jmp	.LBB1_603
+.LBB1_560:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, r14d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_610
+# %bb.561:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_562:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 48]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB1_562
+	jmp	.LBB1_611
+.LBB1_563:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, r14d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_618
+# %bb.564:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_565:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 48]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB1_565
+	jmp	.LBB1_619
+.LBB1_566:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r14
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_626
+# %bb.567:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_568:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 48]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB1_568
+	jmp	.LBB1_627
+.LBB1_569:
+	mov	esi, r11d
+	and	esi, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rax, [rsi - 8]
+	mov	r10, rax
+	shr	r10, 3
+	add	r10, 1
+	test	rax, rax
+	je	.LBB1_634
+# %bb.570:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_571:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rdx + 4*rbx]
+	movups	xmm3, xmmword ptr [rdx + 4*rbx + 16]
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rbx], xmm2
+	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
+	movups	xmm2, xmmword ptr [rdx + 4*rbx + 32]
+	movups	xmm3, xmmword ptr [rdx + 4*rbx + 48]
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rbx + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rbx + 48], xmm3
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB1_571
+	jmp	.LBB1_635
+.LBB1_572:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	eax, r14b
+	movd	xmm0, eax
+	xorpd	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_642
+# %bb.573:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_574:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rbx]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 48]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB1_574
+	jmp	.LBB1_643
+.LBB1_575:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r14d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB1_650
+# %bb.576:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB1_577:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 48]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB1_577
+	jmp	.LBB1_651
+.LBB1_578:
+	xor	ebx, ebx
+.LBB1_579:
+	test	r11b, 1
+	je	.LBB1_581
+# %bb.580:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+.LBB1_581:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_582
+.LBB1_586:
+	xor	ebx, ebx
+.LBB1_587:
+	test	r10b, 1
+	je	.LBB1_589
+# %bb.588:
+	movupd	xmm2, xmmword ptr [rdx + 8*rbx]
+	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 16]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rbx], xmm2
+	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
+.LBB1_589:
+	cmp	rsi, r11
+	je	.LBB1_13
+	jmp	.LBB1_590
+.LBB1_594:
+	xor	ebx, ebx
+.LBB1_595:
+	test	r11b, 1
+	je	.LBB1_597
+# %bb.596:
+	movdqu	xmm1, xmmword ptr [rdx + rbx]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+.LBB1_597:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_598
+.LBB1_602:
+	xor	ebx, ebx
+.LBB1_603:
+	test	r11b, 1
+	je	.LBB1_605
+# %bb.604:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+.LBB1_605:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_606
+.LBB1_610:
+	xor	ebx, ebx
+.LBB1_611:
+	test	r11b, 1
+	je	.LBB1_613
+# %bb.612:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+.LBB1_613:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_614
+.LBB1_618:
+	xor	ebx, ebx
+.LBB1_619:
+	test	r11b, 1
+	je	.LBB1_621
+# %bb.620:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+.LBB1_621:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_622
+.LBB1_626:
+	xor	ebx, ebx
+.LBB1_627:
+	test	r11b, 1
+	je	.LBB1_629
+# %bb.628:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+.LBB1_629:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_630
+.LBB1_634:
+	xor	ebx, ebx
+.LBB1_635:
+	test	r10b, 1
+	je	.LBB1_637
+# %bb.636:
+	movups	xmm2, xmmword ptr [rdx + 4*rbx]
+	movups	xmm3, xmmword ptr [rdx + 4*rbx + 16]
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rbx], xmm2
+	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
+.LBB1_637:
+	cmp	rsi, r11
+	je	.LBB1_13
+	jmp	.LBB1_638
+.LBB1_642:
+	xor	ebx, ebx
+.LBB1_643:
+	test	r11b, 1
+	je	.LBB1_645
+# %bb.644:
+	movdqu	xmm1, xmmword ptr [rdx + rbx]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+.LBB1_645:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_646
+.LBB1_650:
+	xor	ebx, ebx
+.LBB1_651:
+	test	r11b, 1
+	je	.LBB1_653
+# %bb.652:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+.LBB1_653:
+	cmp	rsi, r10
+	je	.LBB1_13
+	jmp	.LBB1_654
+.LBB1_658:
+	xor	ebx, ebx
+.LBB1_659:
+	test	r11b, 1
+	je	.LBB1_661
+# %bb.660:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+.LBB1_661:
+	cmp	rsi, r10
+	je	.LBB1_3
+	jmp	.LBB1_662
+.LBB1_666:
+	xor	ebx, ebx
+.LBB1_667:
+	test	r10b, 1
+	je	.LBB1_669
+# %bb.668:
+	movupd	xmm2, xmmword ptr [rdx + 8*rbx]
+	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rbx], xmm2
+	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
+.LBB1_669:
+	cmp	rsi, r11
+	je	.LBB1_3
+	jmp	.LBB1_670
+.LBB1_674:
+	xor	ebx, ebx
+.LBB1_675:
+	test	r11b, 1
+	je	.LBB1_677
+# %bb.676:
+	movdqu	xmm1, xmmword ptr [rdx + rbx]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+.LBB1_677:
+	cmp	rsi, r10
+	je	.LBB1_3
+	jmp	.LBB1_678
+.LBB1_682:
+	xor	ebx, ebx
+.LBB1_683:
+	test	r11b, 1
+	je	.LBB1_685
+# %bb.684:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+.LBB1_685:
+	cmp	rsi, r10
+	je	.LBB1_3
+	jmp	.LBB1_686
+.LBB1_690:
+	xor	ebx, ebx
+.LBB1_691:
+	test	r11b, 1
+	je	.LBB1_693
+# %bb.692:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+.LBB1_693:
+	cmp	rsi, r10
+	je	.LBB1_3
+	jmp	.LBB1_694
+.LBB1_698:
+	xor	ebx, ebx
+.LBB1_699:
+	test	r11b, 1
+	je	.LBB1_701
+# %bb.700:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+.LBB1_701:
+	cmp	rsi, r10
+	je	.LBB1_3
+	jmp	.LBB1_702
+.LBB1_706:
+	xor	ebx, ebx
+.LBB1_707:
+	test	r11b, 1
+	je	.LBB1_709
+# %bb.708:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+.LBB1_709:
+	cmp	rsi, r10
+	je	.LBB1_3
+	jmp	.LBB1_710
+.LBB1_714:
+	xor	ebx, ebx
+.LBB1_715:
+	test	r10b, 1
+	je	.LBB1_717
+# %bb.716:
+	movups	xmm2, xmmword ptr [rdx + 4*rbx]
+	movups	xmm3, xmmword ptr [rdx + 4*rbx + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rbx], xmm2
+	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
+.LBB1_717:
+	cmp	rsi, r11
+	je	.LBB1_3
+	jmp	.LBB1_718
+.LBB1_722:
+	xor	ebx, ebx
+.LBB1_723:
+	test	r11b, 1
+	je	.LBB1_725
+# %bb.724:
+	movdqu	xmm1, xmmword ptr [rdx + rbx]
+	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+.LBB1_725:
+	cmp	rsi, r10
+	je	.LBB1_3
+	jmp	.LBB1_726
+.LBB1_730:
+	xor	ebx, ebx
+.LBB1_731:
+	test	r11b, 1
+	je	.LBB1_733
+# %bb.732:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+.LBB1_733:
+	cmp	rsi, r10
+	je	.LBB1_3
+	jmp	.LBB1_734
+.Lfunc_end1:
+	.size	arithmetic_arr_scalar_sse4, .Lfunc_end1-arithmetic_arr_scalar_sse4
+                                        # -- End function
+	.globl	arithmetic_scalar_arr_sse4      # -- Begin function arithmetic_scalar_arr_sse4
+	.p2align	4, 0x90
+	.type	arithmetic_scalar_arr_sse4,@function
+arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	push	r14
+	push	rbx
+	and	rsp, -8
+	cmp	sil, 1
+	jg	.LBB2_11
+# %bb.1:
+	test	sil, sil
+	je	.LBB2_28
+# %bb.2:
+	cmp	sil, 1
+	jne	.LBB2_517
+.LBB2_3:
+	cmp	edi, 6
+	jg	.LBB2_36
+# %bb.4:
+	cmp	edi, 3
+	jle	.LBB2_60
+# %bb.5:
+	cmp	edi, 4
+	je	.LBB2_98
+# %bb.6:
+	cmp	edi, 5
+	je	.LBB2_101
+# %bb.7:
+	cmp	edi, 6
+	jne	.LBB2_474
+# %bb.8:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.9:
+	mov	r14d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_10
+# %bb.164:
+	lea	rax, [rcx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB2_254
+# %bb.165:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_254
+.LBB2_10:
+	xor	esi, esi
+.LBB2_398:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_400
+	.p2align	4, 0x90
+.LBB2_399:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_399
+.LBB2_400:
+	cmp	r11, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_401:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_401
+	jmp	.LBB2_474
+.LBB2_11:
+	cmp	sil, 2
+	je	.LBB2_474
+# %bb.12:
+	cmp	sil, 3
+	jne	.LBB2_517
+.LBB2_13:
+	cmp	edi, 6
+	jg	.LBB2_21
+# %bb.14:
+	cmp	edi, 3
+	jle	.LBB2_50
+# %bb.15:
+	cmp	edi, 4
+	je	.LBB2_70
+# %bb.16:
+	cmp	edi, 5
+	je	.LBB2_73
+# %bb.17:
+	cmp	edi, 6
+	jne	.LBB2_517
+# %bb.18:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.19:
+	mov	r11d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_20
+# %bb.134:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_194
+# %bb.135:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_194
+.LBB2_20:
+	xor	esi, esi
+.LBB2_318:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_320
+	.p2align	4, 0x90
+.LBB2_319:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_319
+.LBB2_320:
+	cmp	rdi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_321:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_321
+	jmp	.LBB2_517
+.LBB2_21:
+	cmp	edi, 8
+	jle	.LBB2_55
+# %bb.22:
+	cmp	edi, 9
+	je	.LBB2_76
+# %bb.23:
+	cmp	edi, 11
+	je	.LBB2_79
+# %bb.24:
+	cmp	edi, 12
+	jne	.LBB2_517
+# %bb.25:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.26:
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB2_27
+# %bb.137:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_197
+# %bb.138:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_197
+.LBB2_27:
+	xor	edx, edx
+.LBB2_326:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_328
+	.p2align	4, 0x90
+.LBB2_327:                              # =>This Inner Loop Header: Depth=1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx]
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_327
+.LBB2_328:
+	cmp	rsi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_329:                              # =>This Inner Loop Header: Depth=1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx]
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 8]
+	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 16]
+	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 24]
+	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_329
+	jmp	.LBB2_517
+.LBB2_28:
+	cmp	edi, 6
+	jg	.LBB2_43
+# %bb.29:
+	cmp	edi, 3
+	jle	.LBB2_88
+# %bb.30:
+	cmp	edi, 4
+	je	.LBB2_116
+# %bb.31:
+	cmp	edi, 5
+	je	.LBB2_119
+# %bb.32:
+	cmp	edi, 6
+	jne	.LBB2_3
+# %bb.33:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.34:
+	mov	r14d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_35
+# %bb.224:
+	lea	rax, [rcx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB2_284
+# %bb.225:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_284
+.LBB2_35:
+	xor	esi, esi
+.LBB2_662:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_664
+.LBB2_663:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_663
+.LBB2_664:
+	cmp	r11, 3
+	jb	.LBB2_3
+.LBB2_665:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_665
+	jmp	.LBB2_3
+.LBB2_36:
+	cmp	edi, 8
+	jle	.LBB2_65
+# %bb.37:
+	cmp	edi, 9
+	je	.LBB2_104
+# %bb.38:
+	cmp	edi, 11
+	je	.LBB2_107
+# %bb.39:
+	cmp	edi, 12
+	jne	.LBB2_474
+# %bb.40:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.41:
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	r11d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_42
+# %bb.167:
+	lea	rax, [rcx + 8*r11]
+	cmp	rax, r8
+	jbe	.LBB2_257
+# %bb.168:
+	lea	rax, [r8 + 8*r11]
+	cmp	rax, rcx
+	jbe	.LBB2_257
+.LBB2_42:
+	xor	esi, esi
+.LBB2_406:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB2_408
+	.p2align	4, 0x90
+.LBB2_407:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rcx + 8*rsi]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_407
+.LBB2_408:
+	cmp	rax, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_409:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rcx + 8*rsi]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rsi + 8] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rsi + 16] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rsi + 24] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB2_409
+	jmp	.LBB2_474
+.LBB2_43:
+	cmp	edi, 8
+	jle	.LBB2_93
+# %bb.44:
+	cmp	edi, 9
+	je	.LBB2_122
+# %bb.45:
+	cmp	edi, 11
+	je	.LBB2_125
+# %bb.46:
+	cmp	edi, 12
+	jne	.LBB2_3
+# %bb.47:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.48:
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	r11d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_49
+# %bb.227:
+	lea	rax, [rcx + 8*r11]
+	cmp	rax, r8
+	jbe	.LBB2_287
+# %bb.228:
+	lea	rax, [r8 + 8*r11]
+	cmp	rax, rcx
+	jbe	.LBB2_287
+.LBB2_49:
+	xor	esi, esi
+.LBB2_670:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB2_672
+.LBB2_671:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rcx + 8*rsi]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_671
+.LBB2_672:
+	cmp	rax, 3
+	jb	.LBB2_3
+.LBB2_673:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rcx + 8*rsi]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rsi + 8] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rsi + 16] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rsi + 24] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB2_673
+	jmp	.LBB2_3
+.LBB2_50:
+	cmp	edi, 2
+	je	.LBB2_82
+# %bb.51:
+	cmp	edi, 3
+	jne	.LBB2_517
+# %bb.52:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.53:
+	mov	r11b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_54
+# %bb.140:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_200
+# %bb.141:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_200
+.LBB2_54:
+	xor	esi, esi
+.LBB2_334:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_336
+	.p2align	4, 0x90
+.LBB2_335:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_335
+.LBB2_336:
+	cmp	rdi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_337:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_337
+	jmp	.LBB2_517
+.LBB2_55:
+	cmp	edi, 7
+	je	.LBB2_85
+# %bb.56:
+	cmp	edi, 8
+	jne	.LBB2_517
+# %bb.57:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.58:
+	mov	r11, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_59
+# %bb.143:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_203
+# %bb.144:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_203
+.LBB2_59:
+	xor	esi, esi
+.LBB2_342:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_344
+	.p2align	4, 0x90
+.LBB2_343:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_343
+.LBB2_344:
+	cmp	rdi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_345:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_345
+	jmp	.LBB2_517
+.LBB2_60:
+	cmp	edi, 2
+	je	.LBB2_110
+# %bb.61:
+	cmp	edi, 3
+	jne	.LBB2_474
+# %bb.62:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.63:
+	mov	r14b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_64
+# %bb.170:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_260
+# %bb.171:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_260
+.LBB2_64:
+	xor	esi, esi
+.LBB2_414:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_416
+	.p2align	4, 0x90
+.LBB2_415:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_415
+.LBB2_416:
+	cmp	r11, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_417:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_417
+	jmp	.LBB2_474
+.LBB2_65:
+	cmp	edi, 7
+	je	.LBB2_113
+# %bb.66:
+	cmp	edi, 8
+	jne	.LBB2_474
+# %bb.67:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.68:
+	mov	r14, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_69
+# %bb.173:
+	lea	rax, [rcx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB2_263
+# %bb.174:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_263
+.LBB2_69:
+	xor	esi, esi
+.LBB2_422:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_424
+	.p2align	4, 0x90
+.LBB2_423:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_423
+.LBB2_424:
+	cmp	r11, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_425:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_425
+	jmp	.LBB2_474
+.LBB2_70:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.71:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_72
+# %bb.146:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_206
+# %bb.147:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_206
+.LBB2_72:
+	xor	esi, esi
+.LBB2_350:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_352
+	.p2align	4, 0x90
+.LBB2_351:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, eax
+	sub	bx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_351
+.LBB2_352:
+	cmp	rdi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_353:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_353
+	jmp	.LBB2_517
+.LBB2_73:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.74:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_75
+# %bb.149:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_209
+# %bb.150:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_209
+.LBB2_75:
+	xor	esi, esi
+.LBB2_358:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_360
+	.p2align	4, 0x90
+.LBB2_359:                              # =>This Inner Loop Header: Depth=1
+	mov	ebx, eax
+	sub	bx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], bx
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_359
+.LBB2_360:
+	cmp	rdi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_361:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_361
+	jmp	.LBB2_517
+.LBB2_76:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.77:
+	mov	r11, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_78
+# %bb.152:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_212
+# %bb.153:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_212
+.LBB2_78:
+	xor	esi, esi
+.LBB2_366:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_368
+	.p2align	4, 0x90
+.LBB2_367:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_367
+.LBB2_368:
+	cmp	rdi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_369:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_369
+	jmp	.LBB2_517
+.LBB2_79:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.80:
+	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB2_81
+# %bb.155:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_215
+# %bb.156:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_215
+.LBB2_81:
+	xor	edx, edx
+.LBB2_374:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_376
+	.p2align	4, 0x90
+.LBB2_375:                              # =>This Inner Loop Header: Depth=1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx]
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_375
+.LBB2_376:
+	cmp	rsi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_377:                              # =>This Inner Loop Header: Depth=1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx]
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 4]
+	movss	dword ptr [r8 + 4*rdx + 4], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 8]
+	movss	dword ptr [r8 + 4*rdx + 8], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 12]
+	movss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_377
+	jmp	.LBB2_517
+.LBB2_82:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.83:
+	mov	r11b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_84
+# %bb.158:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_218
+# %bb.159:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_218
+.LBB2_84:
+	xor	esi, esi
+.LBB2_382:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_384
+	.p2align	4, 0x90
+.LBB2_383:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_383
+.LBB2_384:
+	cmp	rdi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_385:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_385
+	jmp	.LBB2_517
+.LBB2_85:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.86:
+	mov	r11d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_87
+# %bb.161:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_221
+# %bb.162:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_221
+.LBB2_87:
+	xor	esi, esi
+.LBB2_390:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_392
+	.p2align	4, 0x90
+.LBB2_391:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_391
+.LBB2_392:
+	cmp	rdi, 3
+	jb	.LBB2_517
+	.p2align	4, 0x90
+.LBB2_393:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_393
+	jmp	.LBB2_517
+.LBB2_88:
+	cmp	edi, 2
+	je	.LBB2_128
+# %bb.89:
+	cmp	edi, 3
+	jne	.LBB2_3
+# %bb.90:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.91:
+	mov	r14b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_92
+# %bb.230:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_290
+# %bb.231:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_290
+.LBB2_92:
+	xor	esi, esi
+.LBB2_678:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_680
+.LBB2_679:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_679
+.LBB2_680:
+	cmp	r11, 3
+	jb	.LBB2_3
+.LBB2_681:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_681
+	jmp	.LBB2_3
+.LBB2_93:
+	cmp	edi, 7
+	je	.LBB2_131
+# %bb.94:
+	cmp	edi, 8
+	jne	.LBB2_3
+# %bb.95:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.96:
+	mov	r14, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_97
+# %bb.233:
+	lea	rax, [rcx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB2_293
+# %bb.234:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_293
+.LBB2_97:
+	xor	esi, esi
+.LBB2_686:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_688
+.LBB2_687:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_687
+.LBB2_688:
+	cmp	r11, 3
+	jb	.LBB2_3
+.LBB2_689:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_689
+	jmp	.LBB2_3
+.LBB2_98:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.99:
+	movzx	r14d, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_100
+# %bb.176:
+	lea	rax, [rcx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB2_266
+# %bb.177:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_266
+.LBB2_100:
+	xor	esi, esi
+.LBB2_430:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_432
+	.p2align	4, 0x90
+.LBB2_431:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_431
+.LBB2_432:
+	cmp	r11, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_433:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_433
+	jmp	.LBB2_474
+.LBB2_101:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.102:
+	movzx	r14d, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_103
+# %bb.179:
+	lea	rax, [rcx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB2_269
+# %bb.180:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_269
+.LBB2_103:
+	xor	esi, esi
+.LBB2_438:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_440
+	.p2align	4, 0x90
+.LBB2_439:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_439
+.LBB2_440:
+	cmp	r11, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_441:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_441
+	jmp	.LBB2_474
+.LBB2_104:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.105:
+	mov	r14, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_106
+# %bb.182:
+	lea	rax, [rcx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB2_272
+# %bb.183:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_272
+.LBB2_106:
+	xor	esi, esi
+.LBB2_446:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_448
+	.p2align	4, 0x90
+.LBB2_447:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_447
+.LBB2_448:
+	cmp	r11, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_449:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_449
+	jmp	.LBB2_474
+.LBB2_107:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.108:
+	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	r11d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_109
+# %bb.185:
+	lea	rax, [rcx + 4*r11]
+	cmp	rax, r8
+	jbe	.LBB2_275
+# %bb.186:
+	lea	rax, [r8 + 4*r11]
+	cmp	rax, rcx
+	jbe	.LBB2_275
+.LBB2_109:
+	xor	esi, esi
+.LBB2_454:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB2_456
+	.p2align	4, 0x90
+.LBB2_455:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_455
+.LBB2_456:
+	cmp	rax, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_457:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi + 4], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi + 8], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi + 12], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB2_457
+	jmp	.LBB2_474
+.LBB2_110:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.111:
+	mov	r14b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_112
+# %bb.188:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_278
+# %bb.189:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_278
+.LBB2_112:
+	xor	esi, esi
+.LBB2_462:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_464
+	.p2align	4, 0x90
+.LBB2_463:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_463
+.LBB2_464:
+	cmp	r11, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_465:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_465
+	jmp	.LBB2_474
+.LBB2_113:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.114:
+	mov	r14d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_115
+# %bb.191:
+	lea	rax, [rcx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB2_281
+# %bb.192:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_281
+.LBB2_115:
+	xor	esi, esi
+.LBB2_470:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_472
+	.p2align	4, 0x90
+.LBB2_471:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_471
+.LBB2_472:
+	cmp	r11, 3
+	jb	.LBB2_474
+	.p2align	4, 0x90
+.LBB2_473:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_473
+	jmp	.LBB2_474
+.LBB2_116:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.117:
+	movzx	r14d, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_118
+# %bb.236:
+	lea	rax, [rcx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB2_296
+# %bb.237:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_296
+.LBB2_118:
+	xor	esi, esi
+.LBB2_694:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_696
+.LBB2_695:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_695
+.LBB2_696:
+	cmp	r11, 3
+	jb	.LBB2_3
+.LBB2_697:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_697
+	jmp	.LBB2_3
+.LBB2_119:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.120:
+	movzx	r14d, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_121
+# %bb.239:
+	lea	rax, [rcx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB2_299
+# %bb.240:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_299
+.LBB2_121:
+	xor	esi, esi
+.LBB2_702:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_704
+.LBB2_703:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_703
+.LBB2_704:
+	cmp	r11, 3
+	jb	.LBB2_3
+.LBB2_705:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, r14w
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_705
+	jmp	.LBB2_3
+.LBB2_122:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.123:
+	mov	r14, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_124
+# %bb.242:
+	lea	rax, [rcx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB2_302
+# %bb.243:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_302
+.LBB2_124:
+	xor	esi, esi
+.LBB2_710:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_712
+.LBB2_711:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_711
+.LBB2_712:
+	cmp	r11, 3
+	jb	.LBB2_3
+.LBB2_713:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, r14
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_713
+	jmp	.LBB2_3
+.LBB2_125:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.126:
+	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	r11d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_127
+# %bb.245:
+	lea	rax, [rcx + 4*r11]
+	cmp	rax, r8
+	jbe	.LBB2_305
+# %bb.246:
+	lea	rax, [r8 + 4*r11]
+	cmp	rax, rcx
+	jbe	.LBB2_305
+.LBB2_127:
+	xor	esi, esi
+.LBB2_718:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB2_720
+.LBB2_719:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_719
+.LBB2_720:
+	cmp	rax, 3
+	jb	.LBB2_3
+.LBB2_721:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi + 4], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi + 8], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rsi + 12], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB2_721
+	jmp	.LBB2_3
+.LBB2_128:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.129:
+	mov	r14b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_130
+# %bb.248:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_308
+# %bb.249:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_308
+.LBB2_130:
+	xor	esi, esi
+.LBB2_726:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_728
+.LBB2_727:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_727
+.LBB2_728:
+	cmp	r11, 3
+	jb	.LBB2_3
+.LBB2_729:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, r14b
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_729
+	jmp	.LBB2_3
+.LBB2_131:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.132:
+	mov	r14d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_133
+# %bb.251:
+	lea	rax, [rcx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB2_311
+# %bb.252:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_311
+.LBB2_133:
+	xor	esi, esi
+.LBB2_734:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_736
+.LBB2_735:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_735
+.LBB2_736:
+	cmp	r11, 3
+	jb	.LBB2_3
+.LBB2_737:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, r14d
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_737
+	jmp	.LBB2_3
+.LBB2_194:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r11d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_314
+# %bb.195:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB2_196:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 48]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm1
+	add	rbx, 16
+	add	rdi, 2
+	jne	.LBB2_196
+	jmp	.LBB2_315
+.LBB2_197:
+	mov	edx, eax
+	and	edx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rdx - 4]
+	mov	rbx, rsi
+	shr	rbx, 2
+	add	rbx, 1
+	test	rsi, rsi
+	je	.LBB2_322
+# %bb.198:
+	mov	rsi, rbx
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_199:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	movapd	xmm2, xmm1
+	subpd	xmm2, xmm3
+	movupd	xmmword ptr [r8 + 8*rdi], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	movapd	xmm2, xmm1
+	subpd	xmm2, xmm3
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB2_199
+	jmp	.LBB2_323
+.LBB2_200:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	edx, r11b
+	movd	xmm0, edx
+	xorpd	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_330
+# %bb.201:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB2_202:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rbx]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rbx], xmm3
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 48]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rbx + 32], xmm3
+	movdqu	xmmword ptr [r8 + rbx + 48], xmm1
+	add	rbx, 64
+	add	rdi, 2
+	jne	.LBB2_202
+	jmp	.LBB2_331
+.LBB2_203:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r11
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_338
+# %bb.204:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB2_205:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 48]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm1
+	add	rbx, 8
+	add	rdi, 2
+	jne	.LBB2_205
+	jmp	.LBB2_339
+.LBB2_206:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_346
+# %bb.207:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB2_208:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 48]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm3
+	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm1
+	add	rbx, 32
+	add	rdi, 2
+	jne	.LBB2_208
+	jmp	.LBB2_347
+.LBB2_209:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_354
+# %bb.210:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB2_211:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 48]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm3
+	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm1
+	add	rbx, 32
+	add	rdi, 2
+	jne	.LBB2_211
+	jmp	.LBB2_355
+.LBB2_212:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r11
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_362
+# %bb.213:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB2_214:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 48]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm1
+	add	rbx, 8
+	add	rdi, 2
+	jne	.LBB2_214
+	jmp	.LBB2_363
+.LBB2_215:
+	mov	edx, eax
+	and	edx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rdx - 8]
+	mov	rbx, rsi
+	shr	rbx, 3
+	add	rbx, 1
+	test	rsi, rsi
+	je	.LBB2_370
+# %bb.216:
+	mov	rsi, rbx
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_217:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	movaps	xmm2, xmm1
+	subps	xmm2, xmm3
+	movups	xmmword ptr [r8 + 4*rdi], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	movaps	xmm2, xmm1
+	subps	xmm2, xmm3
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB2_217
+	jmp	.LBB2_371
+.LBB2_218:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	edx, r11b
+	movd	xmm0, edx
+	xorpd	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_378
+# %bb.219:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB2_220:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rbx]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rbx], xmm3
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 48]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rbx + 32], xmm3
+	movdqu	xmmword ptr [r8 + rbx + 48], xmm1
+	add	rbx, 64
+	add	rdi, 2
+	jne	.LBB2_220
+	jmp	.LBB2_379
+.LBB2_221:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r11d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_386
+# %bb.222:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	ebx, ebx
+.LBB2_223:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 48]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm1
+	add	rbx, 16
+	add	rdi, 2
+	jne	.LBB2_223
+	jmp	.LBB2_387
+.LBB2_254:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r14d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_394
+# %bb.255:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_256:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB2_256
+	jmp	.LBB2_395
+.LBB2_257:
+	mov	esi, r11d
+	and	esi, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rax, [rsi - 4]
+	mov	r10, rax
+	shr	r10, 2
+	add	r10, 1
+	test	rax, rax
+	je	.LBB2_402
+# %bb.258:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_259:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rcx + 8*rbx]
+	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rbx], xmm2
+	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
+	movupd	xmm2, xmmword ptr [rcx + 8*rbx + 32]
+	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 48]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rbx + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rbx + 48], xmm3
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB2_259
+	jmp	.LBB2_403
+.LBB2_260:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	eax, r14b
+	movd	xmm0, eax
+	xorpd	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_410
+# %bb.261:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_262:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rbx]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_262
+	jmp	.LBB2_411
+.LBB2_263:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r14
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_418
+# %bb.264:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_265:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB2_265
+	jmp	.LBB2_419
+.LBB2_266:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, r14d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_426
+# %bb.267:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_268:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB2_268
+	jmp	.LBB2_427
+.LBB2_269:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, r14d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_434
+# %bb.270:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_271:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB2_271
+	jmp	.LBB2_435
+.LBB2_272:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r14
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_442
+# %bb.273:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_274:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB2_274
+	jmp	.LBB2_443
+.LBB2_275:
+	mov	esi, r11d
+	and	esi, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rax, [rsi - 8]
+	mov	r10, rax
+	shr	r10, 3
+	add	r10, 1
+	test	rax, rax
+	je	.LBB2_450
+# %bb.276:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_277:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rcx + 4*rbx]
+	movups	xmm3, xmmword ptr [rcx + 4*rbx + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rbx], xmm2
+	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
+	movups	xmm2, xmmword ptr [rcx + 4*rbx + 32]
+	movups	xmm3, xmmword ptr [rcx + 4*rbx + 48]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rbx + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rbx + 48], xmm3
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB2_277
+	jmp	.LBB2_451
+.LBB2_278:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	eax, r14b
+	movd	xmm0, eax
+	xorpd	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_458
+# %bb.279:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_280:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rbx]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_280
+	jmp	.LBB2_459
+.LBB2_281:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r14d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_466
+# %bb.282:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_283:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB2_283
+	jmp	.LBB2_467
+.LBB2_284:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r14d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_658
+# %bb.285:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_286:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB2_286
+	jmp	.LBB2_659
+.LBB2_287:
+	mov	esi, r11d
+	and	esi, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rax, [rsi - 4]
+	mov	r10, rax
+	shr	r10, 2
+	add	r10, 1
+	test	rax, rax
+	je	.LBB2_666
+# %bb.288:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_289:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rcx + 8*rbx]
+	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rbx], xmm2
+	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
+	movupd	xmm2, xmmword ptr [rcx + 8*rbx + 32]
+	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 48]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rbx + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rbx + 48], xmm3
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB2_289
+	jmp	.LBB2_667
+.LBB2_290:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	eax, r14b
+	movd	xmm0, eax
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_674
+# %bb.291:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_292:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rbx]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_292
+	jmp	.LBB2_675
+.LBB2_293:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r14
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_682
+# %bb.294:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_295:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB2_295
+	jmp	.LBB2_683
+.LBB2_296:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, r14d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_690
+# %bb.297:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_298:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB2_298
+	jmp	.LBB2_691
+.LBB2_299:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, r14d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_698
+# %bb.300:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_301:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB2_301
+	jmp	.LBB2_699
+.LBB2_302:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r14
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_706
+# %bb.303:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_304:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB2_304
+	jmp	.LBB2_707
+.LBB2_305:
+	mov	esi, r11d
+	and	esi, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rax, [rsi - 8]
+	mov	r10, rax
+	shr	r10, 3
+	add	r10, 1
+	test	rax, rax
+	je	.LBB2_714
+# %bb.306:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_307:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rcx + 4*rbx]
+	movups	xmm3, xmmword ptr [rcx + 4*rbx + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rbx], xmm2
+	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
+	movups	xmm2, xmmword ptr [rcx + 4*rbx + 32]
+	movups	xmm3, xmmword ptr [rcx + 4*rbx + 48]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rbx + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rbx + 48], xmm3
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB2_307
+	jmp	.LBB2_715
+.LBB2_308:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	eax, r14b
+	movd	xmm0, eax
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_722
+# %bb.309:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_310:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rbx]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_310
+	jmp	.LBB2_723
+.LBB2_311:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r14d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_730
+# %bb.312:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_313:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB2_313
+	jmp	.LBB2_731
+.LBB2_314:
+	xor	ebx, ebx
+.LBB2_315:
+	test	r9b, 1
+	je	.LBB2_317
+# %bb.316:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	psubd	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm0
+.LBB2_317:
+	cmp	rsi, r10
+	je	.LBB2_517
+	jmp	.LBB2_318
+.LBB2_322:
+	xor	edi, edi
+.LBB2_323:
+	test	bl, 1
+	je	.LBB2_325
+# %bb.324:
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	subpd	xmm1, xmm3
+	movupd	xmmword ptr [r8 + 8*rdi], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB2_325:
+	cmp	rdx, rax
+	je	.LBB2_517
+	jmp	.LBB2_326
+.LBB2_330:
+	xor	ebx, ebx
+.LBB2_331:
+	test	r9b, 1
+	je	.LBB2_333
+# %bb.332:
+	movdqu	xmm1, xmmword ptr [rcx + rbx]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	psubb	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + rbx], xmm3
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm0
+.LBB2_333:
+	cmp	rsi, r10
+	je	.LBB2_517
+	jmp	.LBB2_334
+.LBB2_338:
+	xor	ebx, ebx
+.LBB2_339:
+	test	r9b, 1
+	je	.LBB2_341
+# %bb.340:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	psubq	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm0
+.LBB2_341:
+	cmp	rsi, r10
+	je	.LBB2_517
+	jmp	.LBB2_342
+.LBB2_346:
+	xor	ebx, ebx
+.LBB2_347:
+	test	r9b, 1
+	je	.LBB2_349
+# %bb.348:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	psubw	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm0
+.LBB2_349:
+	cmp	rsi, r10
+	je	.LBB2_517
+	jmp	.LBB2_350
+.LBB2_354:
+	xor	ebx, ebx
+.LBB2_355:
+	test	r9b, 1
+	je	.LBB2_357
+# %bb.356:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	psubw	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm0
+.LBB2_357:
+	cmp	rsi, r10
+	je	.LBB2_517
+	jmp	.LBB2_358
+.LBB2_362:
+	xor	ebx, ebx
+.LBB2_363:
+	test	r9b, 1
+	je	.LBB2_365
+# %bb.364:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	psubq	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm0
+.LBB2_365:
+	cmp	rsi, r10
+	je	.LBB2_517
+	jmp	.LBB2_366
+.LBB2_370:
+	xor	edi, edi
+.LBB2_371:
+	test	bl, 1
+	je	.LBB2_373
+# %bb.372:
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	subps	xmm1, xmm3
+	movups	xmmword ptr [r8 + 4*rdi], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB2_373:
+	cmp	rdx, rax
+	je	.LBB2_517
+	jmp	.LBB2_374
+.LBB2_378:
+	xor	ebx, ebx
+.LBB2_379:
+	test	r9b, 1
+	je	.LBB2_381
+# %bb.380:
+	movdqu	xmm1, xmmword ptr [rcx + rbx]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	psubb	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + rbx], xmm3
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm0
+.LBB2_381:
+	cmp	rsi, r10
+	je	.LBB2_517
+	jmp	.LBB2_382
+.LBB2_386:
+	xor	ebx, ebx
+.LBB2_387:
+	test	r9b, 1
+	je	.LBB2_389
+# %bb.388:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	psubd	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm0
+.LBB2_389:
+	cmp	rsi, r10
+	je	.LBB2_517
+	jmp	.LBB2_390
+.LBB2_394:
+	xor	ebx, ebx
+.LBB2_395:
+	test	r11b, 1
+	je	.LBB2_397
+# %bb.396:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+.LBB2_397:
+	cmp	rsi, r10
+	je	.LBB2_474
+	jmp	.LBB2_398
+.LBB2_402:
+	xor	ebx, ebx
+.LBB2_403:
+	test	r10b, 1
+	je	.LBB2_405
+# %bb.404:
+	movupd	xmm2, xmmword ptr [rcx + 8*rbx]
+	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rbx], xmm2
+	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
+.LBB2_405:
+	cmp	rsi, r11
+	je	.LBB2_474
+	jmp	.LBB2_406
+.LBB2_410:
+	xor	ebx, ebx
+.LBB2_411:
+	test	r11b, 1
+	je	.LBB2_413
+# %bb.412:
+	movdqu	xmm1, xmmword ptr [rcx + rbx]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+.LBB2_413:
+	cmp	rsi, r10
+	je	.LBB2_474
+	jmp	.LBB2_414
+.LBB2_418:
+	xor	ebx, ebx
+.LBB2_419:
+	test	r11b, 1
+	je	.LBB2_421
+# %bb.420:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+.LBB2_421:
+	cmp	rsi, r10
+	je	.LBB2_474
+	jmp	.LBB2_422
+.LBB2_426:
+	xor	ebx, ebx
+.LBB2_427:
+	test	r11b, 1
+	je	.LBB2_429
+# %bb.428:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+.LBB2_429:
+	cmp	rsi, r10
+	je	.LBB2_474
+	jmp	.LBB2_430
+.LBB2_434:
+	xor	ebx, ebx
+.LBB2_435:
+	test	r11b, 1
+	je	.LBB2_437
+# %bb.436:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+.LBB2_437:
+	cmp	rsi, r10
+	je	.LBB2_474
+	jmp	.LBB2_438
+.LBB2_442:
+	xor	ebx, ebx
+.LBB2_443:
+	test	r11b, 1
+	je	.LBB2_445
+# %bb.444:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+.LBB2_445:
+	cmp	rsi, r10
+	je	.LBB2_474
+	jmp	.LBB2_446
+.LBB2_450:
+	xor	ebx, ebx
+.LBB2_451:
+	test	r10b, 1
+	je	.LBB2_453
+# %bb.452:
+	movups	xmm2, xmmword ptr [rcx + 4*rbx]
+	movups	xmm3, xmmword ptr [rcx + 4*rbx + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rbx], xmm2
+	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
+.LBB2_453:
+	cmp	rsi, r11
+	je	.LBB2_474
+	jmp	.LBB2_454
+.LBB2_458:
+	xor	ebx, ebx
+.LBB2_459:
+	test	r11b, 1
+	je	.LBB2_461
+# %bb.460:
+	movdqu	xmm1, xmmword ptr [rcx + rbx]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+.LBB2_461:
+	cmp	rsi, r10
+	je	.LBB2_474
+	jmp	.LBB2_462
+.LBB2_466:
+	xor	ebx, ebx
+.LBB2_467:
+	test	r11b, 1
+	je	.LBB2_469
+# %bb.468:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+.LBB2_469:
+	cmp	rsi, r10
+	jne	.LBB2_470
+.LBB2_474:
+	cmp	edi, 6
+	jg	.LBB2_482
+# %bb.475:
+	cmp	edi, 3
+	jle	.LBB2_489
+# %bb.476:
+	cmp	edi, 4
+	je	.LBB2_499
+# %bb.477:
+	cmp	edi, 5
+	je	.LBB2_502
+# %bb.478:
+	cmp	edi, 6
+	jne	.LBB2_13
+# %bb.479:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.480:
+	mov	r14d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_481
+# %bb.518:
+	lea	rax, [rcx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB2_548
+# %bb.519:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_548
+.LBB2_481:
+	xor	esi, esi
+.LBB2_582:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_584
+	.p2align	4, 0x90
+.LBB2_583:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_583
+.LBB2_584:
+	cmp	r11, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_585:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_585
+	jmp	.LBB2_13
+.LBB2_482:
+	cmp	edi, 8
+	jle	.LBB2_494
+# %bb.483:
+	cmp	edi, 9
+	je	.LBB2_505
+# %bb.484:
+	cmp	edi, 11
+	je	.LBB2_508
+# %bb.485:
+	cmp	edi, 12
+	jne	.LBB2_13
+# %bb.486:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.487:
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	r11d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_488
+# %bb.521:
+	lea	rax, [rcx + 8*r11]
+	cmp	rax, r8
+	jbe	.LBB2_551
+# %bb.522:
+	lea	rax, [r8 + 8*r11]
+	cmp	rax, rcx
+	jbe	.LBB2_551
+.LBB2_488:
+	xor	esi, esi
+.LBB2_590:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB2_592
+	.p2align	4, 0x90
+.LBB2_591:                              # =>This Inner Loop Header: Depth=1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_591
+.LBB2_592:
+	cmp	rax, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_593:                              # =>This Inner Loop Header: Depth=1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rsi + 8]
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rsi + 16]
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rsi + 24]
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB2_593
+	jmp	.LBB2_13
+.LBB2_489:
+	cmp	edi, 2
+	je	.LBB2_511
+# %bb.490:
+	cmp	edi, 3
+	jne	.LBB2_13
+# %bb.491:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.492:
+	mov	r14b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_493
+# %bb.524:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_554
+# %bb.525:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_554
+.LBB2_493:
+	xor	esi, esi
+.LBB2_598:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_600
+	.p2align	4, 0x90
+.LBB2_599:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_599
+.LBB2_600:
+	cmp	r11, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_601:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_601
+	jmp	.LBB2_13
+.LBB2_494:
+	cmp	edi, 7
+	je	.LBB2_514
+# %bb.495:
+	cmp	edi, 8
+	jne	.LBB2_13
+# %bb.496:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.497:
+	mov	r14, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_498
+# %bb.527:
+	lea	rax, [rcx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB2_557
+# %bb.528:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_557
+.LBB2_498:
+	xor	esi, esi
+.LBB2_606:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_608
+	.p2align	4, 0x90
+.LBB2_607:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_607
+.LBB2_608:
+	cmp	r11, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_609:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_609
+	jmp	.LBB2_13
+.LBB2_499:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.500:
+	movzx	r14d, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_501
+# %bb.530:
+	lea	rax, [rcx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB2_560
+# %bb.531:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_560
+.LBB2_501:
+	xor	esi, esi
+.LBB2_614:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_616
+	.p2align	4, 0x90
+.LBB2_615:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_615
+.LBB2_616:
+	cmp	r11, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_617:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_617
+	jmp	.LBB2_13
+.LBB2_502:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.503:
+	movzx	r14d, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_504
+# %bb.533:
+	lea	rax, [rcx + 2*r10]
+	cmp	rax, r8
+	jbe	.LBB2_563
+# %bb.534:
+	lea	rax, [r8 + 2*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_563
+.LBB2_504:
+	xor	esi, esi
+.LBB2_622:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_624
+	.p2align	4, 0x90
+.LBB2_623:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_623
+.LBB2_624:
+	cmp	r11, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_625:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	mov	eax, r14d
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_625
+	jmp	.LBB2_13
+.LBB2_505:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.506:
+	mov	r14, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_507
+# %bb.536:
+	lea	rax, [rcx + 8*r10]
+	cmp	rax, r8
+	jbe	.LBB2_566
+# %bb.537:
+	lea	rax, [r8 + 8*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_566
+.LBB2_507:
+	xor	esi, esi
+.LBB2_630:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_632
+	.p2align	4, 0x90
+.LBB2_631:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_631
+.LBB2_632:
+	cmp	r11, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_633:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r14
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_633
+	jmp	.LBB2_13
+.LBB2_508:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.509:
+	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	r11d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_510
+# %bb.539:
+	lea	rax, [rcx + 4*r11]
+	cmp	rax, r8
+	jbe	.LBB2_569
+# %bb.540:
+	lea	rax, [r8 + 4*r11]
+	cmp	rax, rcx
+	jbe	.LBB2_569
+.LBB2_510:
+	xor	esi, esi
+.LBB2_638:
+	mov	rax, rsi
+	not	rax
+	add	rax, r11
+	mov	rbx, r11
+	and	rbx, 3
+	je	.LBB2_640
+	.p2align	4, 0x90
+.LBB2_639:                              # =>This Inner Loop Header: Depth=1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm1
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_639
+.LBB2_640:
+	cmp	rax, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_641:                              # =>This Inner Loop Header: Depth=1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rsi + 4]
+	movss	dword ptr [r8 + 4*rsi + 4], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rsi + 8]
+	movss	dword ptr [r8 + 4*rsi + 8], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rsi + 12]
+	movss	dword ptr [r8 + 4*rsi + 12], xmm1
+	add	rsi, 4
+	cmp	r11, rsi
+	jne	.LBB2_641
+	jmp	.LBB2_13
+.LBB2_511:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.512:
+	mov	r14b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_513
+# %bb.542:
+	lea	rax, [rcx + r10]
+	cmp	rax, r8
+	jbe	.LBB2_572
+# %bb.543:
+	lea	rax, [r8 + r10]
+	cmp	rax, rcx
+	jbe	.LBB2_572
+.LBB2_513:
+	xor	esi, esi
+.LBB2_646:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_648
+	.p2align	4, 0x90
+.LBB2_647:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_647
+.LBB2_648:
+	cmp	r11, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_649:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	mov	eax, r14d
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_649
+	jmp	.LBB2_13
+.LBB2_514:
+	test	r9d, r9d
+	jle	.LBB2_517
+# %bb.515:
+	mov	r14d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_516
+# %bb.545:
+	lea	rax, [rcx + 4*r10]
+	cmp	rax, r8
+	jbe	.LBB2_575
+# %bb.546:
+	lea	rax, [r8 + 4*r10]
+	cmp	rax, rcx
+	jbe	.LBB2_575
+.LBB2_516:
+	xor	esi, esi
+.LBB2_654:
+	mov	r11, rsi
+	not	r11
+	add	r11, r10
+	mov	rbx, r10
+	and	rbx, 3
+	je	.LBB2_656
+	.p2align	4, 0x90
+.LBB2_655:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rbx, -1
+	jne	.LBB2_655
+.LBB2_656:
+	cmp	r11, 3
+	jb	.LBB2_13
+	.p2align	4, 0x90
+.LBB2_657:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_657
+	jmp	.LBB2_13
+.LBB2_517:
+	lea	rsp, [rbp - 16]
+	pop	rbx
+	pop	r14
+	pop	rbp
+	ret
+.LBB2_548:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r14d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_578
+# %bb.549:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_550:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 48]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm1
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB2_550
+	jmp	.LBB2_579
+.LBB2_551:
+	mov	esi, r11d
+	and	esi, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rax, [rsi - 4]
+	mov	r10, rax
+	shr	r10, 2
+	add	r10, 1
+	test	rax, rax
+	je	.LBB2_586
+# %bb.552:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_553:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rcx + 8*rbx]
+	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 16]
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	movapd	xmm2, xmm1
+	subpd	xmm2, xmm3
+	movupd	xmmword ptr [r8 + 8*rbx], xmm4
+	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rbx + 32]
+	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 48]
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	movapd	xmm2, xmm1
+	subpd	xmm2, xmm3
+	movupd	xmmword ptr [r8 + 8*rbx + 32], xmm4
+	movupd	xmmword ptr [r8 + 8*rbx + 48], xmm2
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB2_553
+	jmp	.LBB2_587
+.LBB2_554:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	eax, r14b
+	movd	xmm0, eax
+	xorpd	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_594
+# %bb.555:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_556:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rbx]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rbx], xmm3
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 48]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rbx + 32], xmm3
+	movdqu	xmmword ptr [r8 + rbx + 48], xmm1
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_556
+	jmp	.LBB2_595
+.LBB2_557:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r14
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_602
+# %bb.558:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_559:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 48]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm1
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB2_559
+	jmp	.LBB2_603
+.LBB2_560:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, r14d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_610
+# %bb.561:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_562:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 48]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm3
+	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm1
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB2_562
+	jmp	.LBB2_611
+.LBB2_563:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, r14d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 16]
+	mov	r11, rax
+	shr	r11, 4
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_618
+# %bb.564:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_565:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 48]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm3
+	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm1
+	add	rbx, 32
+	add	rax, 2
+	jne	.LBB2_565
+	jmp	.LBB2_619
+.LBB2_566:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r14
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rax, [rsi - 4]
+	mov	r11, rax
+	shr	r11, 2
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_626
+# %bb.567:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_568:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 48]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm1
+	add	rbx, 8
+	add	rax, 2
+	jne	.LBB2_568
+	jmp	.LBB2_627
+.LBB2_569:
+	mov	esi, r11d
+	and	esi, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rax, [rsi - 8]
+	mov	r10, rax
+	shr	r10, 3
+	add	r10, 1
+	test	rax, rax
+	je	.LBB2_634
+# %bb.570:
+	mov	rax, r10
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_571:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rcx + 4*rbx]
+	movups	xmm3, xmmword ptr [rcx + 4*rbx + 16]
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	movaps	xmm2, xmm1
+	subps	xmm2, xmm3
+	movups	xmmword ptr [r8 + 4*rbx], xmm4
+	movups	xmmword ptr [r8 + 4*rbx + 16], xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rbx + 32]
+	movups	xmm3, xmmword ptr [rcx + 4*rbx + 48]
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	movaps	xmm2, xmm1
+	subps	xmm2, xmm3
+	movups	xmmword ptr [r8 + 4*rbx + 32], xmm4
+	movups	xmmword ptr [r8 + 4*rbx + 48], xmm2
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB2_571
+	jmp	.LBB2_635
+.LBB2_572:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	eax, r14b
+	movd	xmm0, eax
+	xorpd	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rax, [rsi - 32]
+	mov	r11, rax
+	shr	r11, 5
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_642
+# %bb.573:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_574:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rbx]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rbx], xmm3
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 48]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rbx + 32], xmm3
+	movdqu	xmmword ptr [r8 + rbx + 48], xmm1
+	add	rbx, 64
+	add	rax, 2
+	jne	.LBB2_574
+	jmp	.LBB2_643
+.LBB2_575:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r14d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rax, [rsi - 8]
+	mov	r11, rax
+	shr	r11, 3
+	add	r11, 1
+	test	rax, rax
+	je	.LBB2_650
+# %bb.576:
+	mov	rax, r11
+	and	rax, -2
+	neg	rax
+	xor	ebx, ebx
+.LBB2_577:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 48]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm1
+	add	rbx, 16
+	add	rax, 2
+	jne	.LBB2_577
+	jmp	.LBB2_651
+.LBB2_578:
+	xor	ebx, ebx
+.LBB2_579:
+	test	r11b, 1
+	je	.LBB2_581
+# %bb.580:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	psubd	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm0
+.LBB2_581:
+	cmp	rsi, r10
+	je	.LBB2_13
+	jmp	.LBB2_582
+.LBB2_586:
+	xor	ebx, ebx
+.LBB2_587:
+	test	r10b, 1
+	je	.LBB2_589
+# %bb.588:
+	movupd	xmm2, xmmword ptr [rcx + 8*rbx]
+	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 16]
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	subpd	xmm1, xmm3
+	movupd	xmmword ptr [r8 + 8*rbx], xmm4
+	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm1
+.LBB2_589:
+	cmp	rsi, r11
+	je	.LBB2_13
+	jmp	.LBB2_590
+.LBB2_594:
+	xor	ebx, ebx
+.LBB2_595:
+	test	r11b, 1
+	je	.LBB2_597
+# %bb.596:
+	movdqu	xmm1, xmmword ptr [rcx + rbx]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	psubb	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + rbx], xmm3
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm0
+.LBB2_597:
+	cmp	rsi, r10
+	je	.LBB2_13
+	jmp	.LBB2_598
+.LBB2_602:
+	xor	ebx, ebx
+.LBB2_603:
+	test	r11b, 1
+	je	.LBB2_605
+# %bb.604:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	psubq	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm0
+.LBB2_605:
+	cmp	rsi, r10
+	je	.LBB2_13
+	jmp	.LBB2_606
+.LBB2_610:
+	xor	ebx, ebx
+.LBB2_611:
+	test	r11b, 1
+	je	.LBB2_613
+# %bb.612:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	psubw	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm0
+.LBB2_613:
+	cmp	rsi, r10
+	je	.LBB2_13
+	jmp	.LBB2_614
+.LBB2_618:
+	xor	ebx, ebx
+.LBB2_619:
+	test	r11b, 1
+	je	.LBB2_621
+# %bb.620:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	psubw	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm0
+.LBB2_621:
+	cmp	rsi, r10
+	je	.LBB2_13
+	jmp	.LBB2_622
+.LBB2_626:
+	xor	ebx, ebx
+.LBB2_627:
+	test	r11b, 1
+	je	.LBB2_629
+# %bb.628:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	psubq	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm0
+.LBB2_629:
+	cmp	rsi, r10
+	je	.LBB2_13
+	jmp	.LBB2_630
+.LBB2_634:
+	xor	ebx, ebx
+.LBB2_635:
+	test	r10b, 1
+	je	.LBB2_637
+# %bb.636:
+	movups	xmm2, xmmword ptr [rcx + 4*rbx]
+	movups	xmm3, xmmword ptr [rcx + 4*rbx + 16]
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	subps	xmm1, xmm3
+	movups	xmmword ptr [r8 + 4*rbx], xmm4
+	movups	xmmword ptr [r8 + 4*rbx + 16], xmm1
+.LBB2_637:
+	cmp	rsi, r11
+	je	.LBB2_13
+	jmp	.LBB2_638
+.LBB2_642:
+	xor	ebx, ebx
+.LBB2_643:
+	test	r11b, 1
+	je	.LBB2_645
+# %bb.644:
+	movdqu	xmm1, xmmword ptr [rcx + rbx]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	psubb	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + rbx], xmm3
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm0
+.LBB2_645:
+	cmp	rsi, r10
+	je	.LBB2_13
+	jmp	.LBB2_646
+.LBB2_650:
+	xor	ebx, ebx
+.LBB2_651:
+	test	r11b, 1
+	je	.LBB2_653
+# %bb.652:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	psubd	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm3
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm0
+.LBB2_653:
+	cmp	rsi, r10
+	je	.LBB2_13
+	jmp	.LBB2_654
+.LBB2_658:
+	xor	ebx, ebx
+.LBB2_659:
+	test	r11b, 1
+	je	.LBB2_661
+# %bb.660:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+.LBB2_661:
+	cmp	rsi, r10
+	je	.LBB2_3
+	jmp	.LBB2_662
+.LBB2_666:
+	xor	ebx, ebx
+.LBB2_667:
+	test	r10b, 1
+	je	.LBB2_669
+# %bb.668:
+	movupd	xmm2, xmmword ptr [rcx + 8*rbx]
+	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rbx], xmm2
+	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
+.LBB2_669:
+	cmp	rsi, r11
+	je	.LBB2_3
+	jmp	.LBB2_670
+.LBB2_674:
+	xor	ebx, ebx
+.LBB2_675:
+	test	r11b, 1
+	je	.LBB2_677
+# %bb.676:
+	movdqu	xmm1, xmmword ptr [rcx + rbx]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+.LBB2_677:
+	cmp	rsi, r10
+	je	.LBB2_3
+	jmp	.LBB2_678
+.LBB2_682:
+	xor	ebx, ebx
+.LBB2_683:
+	test	r11b, 1
+	je	.LBB2_685
+# %bb.684:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+.LBB2_685:
+	cmp	rsi, r10
+	je	.LBB2_3
+	jmp	.LBB2_686
+.LBB2_690:
+	xor	ebx, ebx
+.LBB2_691:
+	test	r11b, 1
+	je	.LBB2_693
+# %bb.692:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+.LBB2_693:
+	cmp	rsi, r10
+	je	.LBB2_3
+	jmp	.LBB2_694
+.LBB2_698:
+	xor	ebx, ebx
+.LBB2_699:
+	test	r11b, 1
+	je	.LBB2_701
+# %bb.700:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
+.LBB2_701:
+	cmp	rsi, r10
+	je	.LBB2_3
+	jmp	.LBB2_702
+.LBB2_706:
+	xor	ebx, ebx
+.LBB2_707:
+	test	r11b, 1
+	je	.LBB2_709
+# %bb.708:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
+.LBB2_709:
+	cmp	rsi, r10
+	je	.LBB2_3
+	jmp	.LBB2_710
+.LBB2_714:
+	xor	ebx, ebx
+.LBB2_715:
+	test	r10b, 1
+	je	.LBB2_717
+# %bb.716:
+	movups	xmm2, xmmword ptr [rcx + 4*rbx]
+	movups	xmm3, xmmword ptr [rcx + 4*rbx + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rbx], xmm2
+	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
+.LBB2_717:
+	cmp	rsi, r11
+	je	.LBB2_3
+	jmp	.LBB2_718
+.LBB2_722:
+	xor	ebx, ebx
+.LBB2_723:
+	test	r11b, 1
+	je	.LBB2_725
+# %bb.724:
+	movdqu	xmm1, xmmword ptr [rcx + rbx]
+	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rbx], xmm1
+	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
+.LBB2_725:
+	cmp	rsi, r10
+	je	.LBB2_3
+	jmp	.LBB2_726
+.LBB2_730:
+	xor	ebx, ebx
+.LBB2_731:
+	test	r11b, 1
+	je	.LBB2_733
+# %bb.732:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
+	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
+.LBB2_733:
+	cmp	rsi, r10
+	je	.LBB2_3
+	jmp	.LBB2_734
+.Lfunc_end2:
+	.size	arithmetic_scalar_arr_sse4, .Lfunc_end2-arithmetic_scalar_arr_sse4
+                                        # -- End function
+	.ident	"Ubuntu clang version 11.1.0-6"
+	.section	".note.GNU-stack","",@progbits
+	.addrsig
diff --git a/go/arrow/compute/internal/kernels/_lib/cast_numeric.cc b/go/arrow/compute/internal/kernels/_lib/cast_numeric.cc
index 666d85a6ac5..1e8c821ea5e 100644
--- a/go/arrow/compute/internal/kernels/_lib/cast_numeric.cc
+++ b/go/arrow/compute/internal/kernels/_lib/cast_numeric.cc
@@ -16,23 +16,7 @@
 
 #include <arch.h>
 #include <stdint.h>
-
-// corresponds to datatype.go's arrow.Type
-enum class arrtype : int {
-    NULL,
-    BOOL,
-    UINT8,
-    INT8,
-    UINT16,
-    INT16,
-    UINT32,
-    INT32,
-    UINT64,
-    INT64,
-    FLOAT16,
-    FLOAT32,
-    FLOAT64
-};
+#include "types.h"
 
 template <typename I, typename O>
 static inline void FULL_NAME(cast_tmpl_numeric)(const I* in, O* out, const int len) {
diff --git a/go/arrow/compute/internal/kernels/_lib/safe-math.h b/go/arrow/compute/internal/kernels/_lib/safe-math.h
new file mode 100644
index 00000000000..7f6426ac765
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/safe-math.h
@@ -0,0 +1,1072 @@
+/* Overflow-safe math functions
+ * Portable Snippets - https://github.com/nemequ/portable-snippets
+ * Created by Evan Nemerson <evan@nemerson.com>
+ *
+ *   To the extent possible under law, the authors have waived all
+ *   copyright and related or neighboring rights to this code.  For
+ *   details, see the Creative Commons Zero 1.0 Universal license at
+ *   https://creativecommons.org/publicdomain/zero/1.0/
+ */
+
+#if !defined(PSNIP_SAFE_H)
+#define PSNIP_SAFE_H
+
+#if !defined(PSNIP_SAFE_FORCE_PORTABLE)
+#  if defined(__has_builtin)
+#    if __has_builtin(__builtin_add_overflow) && !defined(__ibmxl__)
+#      define PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW
+#    endif
+#  elif defined(__GNUC__) && (__GNUC__ >= 5) && !defined(__INTEL_COMPILER)
+#    define PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW
+#  endif
+#  if defined(__has_include)
+#    if __has_include(<intsafe.h>)
+#      define PSNIP_SAFE_HAVE_INTSAFE_H
+#    endif
+#  elif defined(_WIN32)
+#    define PSNIP_SAFE_HAVE_INTSAFE_H
+#  endif
+#endif /* !defined(PSNIP_SAFE_FORCE_PORTABLE) */
+
+#if defined(__GNUC__)
+#  define PSNIP_SAFE_LIKELY(expr)   __builtin_expect(!!(expr), 1)
+#  define PSNIP_SAFE_UNLIKELY(expr) __builtin_expect(!!(expr), 0)
+#else
+#  define PSNIP_SAFE_LIKELY(expr) !!(expr)
+#  define PSNIP_SAFE_UNLIKELY(expr) !!(expr)
+#endif /* defined(__GNUC__) */
+
+#if !defined(PSNIP_SAFE_STATIC_INLINE)
+#  if defined(__GNUC__)
+#    define PSNIP_SAFE__COMPILER_ATTRIBUTES __attribute__((__unused__))
+#  else
+#    define PSNIP_SAFE__COMPILER_ATTRIBUTES
+#  endif
+
+#  if defined(HEDLEY_INLINE)
+#    define PSNIP_SAFE__INLINE HEDLEY_INLINE
+#  elif defined(__STDC_VERSION__) && __STDC_VERSION__ >= 199901L
+#    define PSNIP_SAFE__INLINE inline
+#  elif defined(__GNUC_STDC_INLINE__)
+#    define PSNIP_SAFE__INLINE __inline__
+#  elif defined(_MSC_VER) && _MSC_VER >= 1200
+#    define PSNIP_SAFE__INLINE __inline
+#  else
+#    define PSNIP_SAFE__INLINE
+#  endif
+
+#  define PSNIP_SAFE__FUNCTION PSNIP_SAFE__COMPILER_ATTRIBUTES static PSNIP_SAFE__INLINE
+#endif
+
+// !defined(__cplusplus) added for Solaris support
+#if !defined(__cplusplus) && defined(__STDC_VERSION__) && __STDC_VERSION__ >= 199901L
+#  define psnip_safe_bool _Bool
+#else
+#  define psnip_safe_bool int
+#endif
+
+#if !defined(PSNIP_SAFE_NO_FIXED)
+/* For maximum portability include the exact-int module from
+   portable snippets. */
+#  if \
+    !defined(psnip_int64_t) || !defined(psnip_uint64_t) || \
+    !defined(psnip_int32_t) || !defined(psnip_uint32_t) || \
+    !defined(psnip_int16_t) || !defined(psnip_uint16_t) || \
+    !defined(psnip_int8_t)  || !defined(psnip_uint8_t)
+#    include <stdint.h>
+#    if !defined(psnip_int64_t)
+#      define psnip_int64_t int64_t
+#    endif
+#    if !defined(psnip_uint64_t)
+#      define psnip_uint64_t uint64_t
+#    endif
+#    if !defined(psnip_int32_t)
+#      define psnip_int32_t int32_t
+#    endif
+#    if !defined(psnip_uint32_t)
+#      define psnip_uint32_t uint32_t
+#    endif
+#    if !defined(psnip_int16_t)
+#      define psnip_int16_t int16_t
+#    endif
+#    if !defined(psnip_uint16_t)
+#      define psnip_uint16_t uint16_t
+#    endif
+#    if !defined(psnip_int8_t)
+#      define psnip_int8_t int8_t
+#    endif
+#    if !defined(psnip_uint8_t)
+#      define psnip_uint8_t uint8_t
+#    endif
+#  endif
+#endif /* !defined(PSNIP_SAFE_NO_FIXED) */
+#include <limits.h>
+#include <stdlib.h>
+
+#if !defined(PSNIP_SAFE_SIZE_MAX)
+#  if defined(__SIZE_MAX__)
+#    define PSNIP_SAFE_SIZE_MAX __SIZE_MAX__
+#  elif defined(PSNIP_EXACT_INT_HAVE_STDINT)
+#    include <stdint.h>
+#  endif
+#endif
+
+#if defined(PSNIP_SAFE_SIZE_MAX)
+#  define PSNIP_SAFE__SIZE_MAX_RT PSNIP_SAFE_SIZE_MAX
+#else
+#  define PSNIP_SAFE__SIZE_MAX_RT (~((size_t) 0))
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_INTSAFE_H)
+/* In VS 10, stdint.h and intsafe.h both define (U)INTN_MIN/MAX, which
+   triggers warning C4005 (level 1). */
+#  if defined(_MSC_VER) && (_MSC_VER == 1600)
+#    pragma warning(push)
+#    pragma warning(disable:4005)
+#  endif
+#  include <intsafe.h>
+#  if defined(_MSC_VER) && (_MSC_VER == 1600)
+#    pragma warning(pop)
+#  endif
+#endif /* defined(PSNIP_SAFE_HAVE_INTSAFE_H) */
+
+/* If there is a type larger than the one we're concerned with it's
+ * likely much faster to simply promote the operands, perform the
+ * requested operation, verify that the result falls within the
+ * original type, then cast the result back to the original type. */
+
+#if !defined(PSNIP_SAFE_NO_PROMOTIONS)
+
+#define PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, op_name, op) \
+  PSNIP_SAFE__FUNCTION psnip_safe_##name##_larger \
+  psnip_safe_larger_##name##_##op_name (T a, T b) { \
+    return ((psnip_safe_##name##_larger) a) op ((psnip_safe_##name##_larger) b); \
+  }
+
+#define PSNIP_SAFE_DEFINE_LARGER_UNARY_OP(T, name, op_name, op) \
+  PSNIP_SAFE__FUNCTION psnip_safe_##name##_larger \
+  psnip_safe_larger_##name##_##op_name (T value) { \
+    return (op ((psnip_safe_##name##_larger) value)); \
+  }
+
+#define PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(T, name) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, add, +) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, sub, -) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, mul, *) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, div, /) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, mod, %) \
+  PSNIP_SAFE_DEFINE_LARGER_UNARY_OP (T, name, neg, -)
+
+#define PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(T, name) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, add, +) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, sub, -) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, mul, *) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, div, /) \
+  PSNIP_SAFE_DEFINE_LARGER_BINARY_OP(T, name, mod, %)
+
+#define PSNIP_SAFE_IS_LARGER(ORIG_MAX, DEST_MAX) ((DEST_MAX / ORIG_MAX) >= ORIG_MAX)
+
+#if defined(__GNUC__) && ((__GNUC__ >= 4) || (__GNUC__ == 4 && __GNUC_MINOR__ >= 6)) && defined(__SIZEOF_INT128__) && !defined(__ibmxl__)
+#define PSNIP_SAFE_HAVE_128
+typedef __int128  psnip_safe_int128_t;
+typedef unsigned __int128 psnip_safe_uint128_t;
+#endif /* defined(__GNUC__) */
+
+#if !defined(PSNIP_SAFE_NO_FIXED)
+#define PSNIP_SAFE_HAVE_INT8_LARGER
+#define PSNIP_SAFE_HAVE_UINT8_LARGER
+typedef psnip_int16_t  psnip_safe_int8_larger;
+typedef psnip_uint16_t psnip_safe_uint8_larger;
+
+#define PSNIP_SAFE_HAVE_INT16_LARGER
+typedef psnip_int32_t  psnip_safe_int16_larger;
+typedef psnip_uint32_t psnip_safe_uint16_larger;
+
+#define PSNIP_SAFE_HAVE_INT32_LARGER
+typedef psnip_int64_t  psnip_safe_int32_larger;
+typedef psnip_uint64_t psnip_safe_uint32_larger;
+
+#if defined(PSNIP_SAFE_HAVE_128)
+#define PSNIP_SAFE_HAVE_INT64_LARGER
+typedef psnip_safe_int128_t psnip_safe_int64_larger;
+typedef psnip_safe_uint128_t psnip_safe_uint64_larger;
+#endif /* defined(PSNIP_SAFE_HAVE_128) */
+#endif /* !defined(PSNIP_SAFE_NO_FIXED) */
+
+#define PSNIP_SAFE_HAVE_LARGER_SCHAR
+#if PSNIP_SAFE_IS_LARGER(SCHAR_MAX, SHRT_MAX)
+typedef short psnip_safe_schar_larger;
+#elif PSNIP_SAFE_IS_LARGER(SCHAR_MAX, INT_MAX)
+typedef int psnip_safe_schar_larger;
+#elif PSNIP_SAFE_IS_LARGER(SCHAR_MAX, LONG_MAX)
+typedef long psnip_safe_schar_larger;
+#elif PSNIP_SAFE_IS_LARGER(SCHAR_MAX, LLONG_MAX)
+typedef long long psnip_safe_schar_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SCHAR_MAX, 0x7fff)
+typedef psnip_int16_t psnip_safe_schar_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SCHAR_MAX, 0x7fffffffLL)
+typedef psnip_int32_t psnip_safe_schar_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SCHAR_MAX, 0x7fffffffffffffffLL)
+typedef psnip_int64_t psnip_safe_schar_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (SCHAR_MAX <= 0x7fffffffffffffffLL)
+typedef psnip_safe_int128_t psnip_safe_schar_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_SCHAR
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_UCHAR
+#if PSNIP_SAFE_IS_LARGER(UCHAR_MAX, USHRT_MAX)
+typedef unsigned short psnip_safe_uchar_larger;
+#elif PSNIP_SAFE_IS_LARGER(UCHAR_MAX, UINT_MAX)
+typedef unsigned int psnip_safe_uchar_larger;
+#elif PSNIP_SAFE_IS_LARGER(UCHAR_MAX, ULONG_MAX)
+typedef unsigned long psnip_safe_uchar_larger;
+#elif PSNIP_SAFE_IS_LARGER(UCHAR_MAX, ULLONG_MAX)
+typedef unsigned long long psnip_safe_uchar_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UCHAR_MAX, 0xffffU)
+typedef psnip_uint16_t psnip_safe_uchar_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UCHAR_MAX, 0xffffffffUL)
+typedef psnip_uint32_t psnip_safe_uchar_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UCHAR_MAX, 0xffffffffffffffffULL)
+typedef psnip_uint64_t psnip_safe_uchar_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (UCHAR_MAX <= 0xffffffffffffffffULL)
+typedef psnip_safe_uint128_t psnip_safe_uchar_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_UCHAR
+#endif
+
+#if CHAR_MIN == 0 && defined(PSNIP_SAFE_HAVE_LARGER_UCHAR)
+#define PSNIP_SAFE_HAVE_LARGER_CHAR
+typedef psnip_safe_uchar_larger psnip_safe_char_larger;
+#elif CHAR_MIN < 0 && defined(PSNIP_SAFE_HAVE_LARGER_SCHAR)
+#define PSNIP_SAFE_HAVE_LARGER_CHAR
+typedef psnip_safe_schar_larger psnip_safe_char_larger;
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_SHRT
+#if PSNIP_SAFE_IS_LARGER(SHRT_MAX, INT_MAX)
+typedef int psnip_safe_short_larger;
+#elif PSNIP_SAFE_IS_LARGER(SHRT_MAX, LONG_MAX)
+typedef long psnip_safe_short_larger;
+#elif PSNIP_SAFE_IS_LARGER(SHRT_MAX, LLONG_MAX)
+typedef long long psnip_safe_short_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SHRT_MAX, 0x7fff)
+typedef psnip_int16_t psnip_safe_short_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SHRT_MAX, 0x7fffffffLL)
+typedef psnip_int32_t psnip_safe_short_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(SHRT_MAX, 0x7fffffffffffffffLL)
+typedef psnip_int64_t psnip_safe_short_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (SHRT_MAX <= 0x7fffffffffffffffLL)
+typedef psnip_safe_int128_t psnip_safe_short_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_SHRT
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_USHRT
+#if PSNIP_SAFE_IS_LARGER(USHRT_MAX, UINT_MAX)
+typedef unsigned int psnip_safe_ushort_larger;
+#elif PSNIP_SAFE_IS_LARGER(USHRT_MAX, ULONG_MAX)
+typedef unsigned long psnip_safe_ushort_larger;
+#elif PSNIP_SAFE_IS_LARGER(USHRT_MAX, ULLONG_MAX)
+typedef unsigned long long psnip_safe_ushort_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(USHRT_MAX, 0xffff)
+typedef psnip_uint16_t psnip_safe_ushort_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(USHRT_MAX, 0xffffffffUL)
+typedef psnip_uint32_t psnip_safe_ushort_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(USHRT_MAX, 0xffffffffffffffffULL)
+typedef psnip_uint64_t psnip_safe_ushort_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (USHRT_MAX <= 0xffffffffffffffffULL)
+typedef psnip_safe_uint128_t psnip_safe_ushort_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_USHRT
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_INT
+#if PSNIP_SAFE_IS_LARGER(INT_MAX, LONG_MAX)
+typedef long psnip_safe_int_larger;
+#elif PSNIP_SAFE_IS_LARGER(INT_MAX, LLONG_MAX)
+typedef long long psnip_safe_int_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(INT_MAX, 0x7fff)
+typedef psnip_int16_t psnip_safe_int_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(INT_MAX, 0x7fffffffLL)
+typedef psnip_int32_t psnip_safe_int_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(INT_MAX, 0x7fffffffffffffffLL)
+typedef psnip_int64_t psnip_safe_int_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (INT_MAX <= 0x7fffffffffffffffLL)
+typedef psnip_safe_int128_t psnip_safe_int_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_INT
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_UINT
+#if PSNIP_SAFE_IS_LARGER(UINT_MAX, ULONG_MAX)
+typedef unsigned long psnip_safe_uint_larger;
+#elif PSNIP_SAFE_IS_LARGER(UINT_MAX, ULLONG_MAX)
+typedef unsigned long long psnip_safe_uint_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UINT_MAX, 0xffff)
+typedef psnip_uint16_t psnip_safe_uint_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UINT_MAX, 0xffffffffUL)
+typedef psnip_uint32_t psnip_safe_uint_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(UINT_MAX, 0xffffffffffffffffULL)
+typedef psnip_uint64_t psnip_safe_uint_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (UINT_MAX <= 0xffffffffffffffffULL)
+typedef psnip_safe_uint128_t psnip_safe_uint_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_UINT
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_LONG
+#if PSNIP_SAFE_IS_LARGER(LONG_MAX, LLONG_MAX)
+typedef long long psnip_safe_long_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LONG_MAX, 0x7fff)
+typedef psnip_int16_t psnip_safe_long_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LONG_MAX, 0x7fffffffLL)
+typedef psnip_int32_t psnip_safe_long_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LONG_MAX, 0x7fffffffffffffffLL)
+typedef psnip_int64_t psnip_safe_long_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (LONG_MAX <= 0x7fffffffffffffffLL)
+typedef psnip_safe_int128_t psnip_safe_long_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_LONG
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_ULONG
+#if PSNIP_SAFE_IS_LARGER(ULONG_MAX, ULLONG_MAX)
+typedef unsigned long long psnip_safe_ulong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULONG_MAX, 0xffff)
+typedef psnip_uint16_t psnip_safe_ulong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULONG_MAX, 0xffffffffUL)
+typedef psnip_uint32_t psnip_safe_ulong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULONG_MAX, 0xffffffffffffffffULL)
+typedef psnip_uint64_t psnip_safe_ulong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (ULONG_MAX <= 0xffffffffffffffffULL)
+typedef psnip_safe_uint128_t psnip_safe_ulong_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_ULONG
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_LLONG
+#if !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LLONG_MAX, 0x7fff)
+typedef psnip_int16_t psnip_safe_llong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LLONG_MAX, 0x7fffffffLL)
+typedef psnip_int32_t psnip_safe_llong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(LLONG_MAX, 0x7fffffffffffffffLL)
+typedef psnip_int64_t psnip_safe_llong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (LLONG_MAX <= 0x7fffffffffffffffLL)
+typedef psnip_safe_int128_t psnip_safe_llong_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_LLONG
+#endif
+
+#define PSNIP_SAFE_HAVE_LARGER_ULLONG
+#if !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULLONG_MAX, 0xffff)
+typedef psnip_uint16_t psnip_safe_ullong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULLONG_MAX, 0xffffffffUL)
+typedef psnip_uint32_t psnip_safe_ullong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(ULLONG_MAX, 0xffffffffffffffffULL)
+typedef psnip_uint64_t psnip_safe_ullong_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (ULLONG_MAX <= 0xffffffffffffffffULL)
+typedef psnip_safe_uint128_t psnip_safe_ullong_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_ULLONG
+#endif
+
+#if defined(PSNIP_SAFE_SIZE_MAX)
+#define PSNIP_SAFE_HAVE_LARGER_SIZE
+#if PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, USHRT_MAX)
+typedef unsigned short psnip_safe_size_larger;
+#elif PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, UINT_MAX)
+typedef unsigned int psnip_safe_size_larger;
+#elif PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, ULONG_MAX)
+typedef unsigned long psnip_safe_size_larger;
+#elif PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, ULLONG_MAX)
+typedef unsigned long long psnip_safe_size_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, 0xffff)
+typedef psnip_uint16_t psnip_safe_size_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, 0xffffffffUL)
+typedef psnip_uint32_t psnip_safe_size_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && PSNIP_SAFE_IS_LARGER(PSNIP_SAFE_SIZE_MAX, 0xffffffffffffffffULL)
+typedef psnip_uint64_t psnip_safe_size_larger;
+#elif !defined(PSNIP_SAFE_NO_FIXED) && defined(PSNIP_SAFE_HAVE_128) && (PSNIP_SAFE_SIZE_MAX <= 0xffffffffffffffffULL)
+typedef psnip_safe_uint128_t psnip_safe_size_larger;
+#else
+#undef PSNIP_SAFE_HAVE_LARGER_SIZE
+#endif
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_SCHAR)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(signed char, schar)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_UCHAR)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned char, uchar)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_CHAR)
+#if CHAR_MIN == 0
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(char, char)
+#else
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(char, char)
+#endif
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_SHORT)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(short, short)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_USHORT)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned short, ushort)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_INT)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(int, int)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_UINT)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned int, uint)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_LONG)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(long, long)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_ULONG)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned long, ulong)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_LLONG)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(long long, llong)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_ULLONG)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(unsigned long long, ullong)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_LARGER_SIZE)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(size_t, size)
+#endif
+
+#if !defined(PSNIP_SAFE_NO_FIXED)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(psnip_int8_t,   int8)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(psnip_uint8_t,  uint8)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(psnip_int16_t,  int16)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(psnip_uint16_t, uint16)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(psnip_int32_t,  int32)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(psnip_uint32_t, uint32)
+#if defined(PSNIP_SAFE_HAVE_128)
+PSNIP_SAFE_DEFINE_LARGER_SIGNED_OPS(psnip_int64_t,  int64)
+PSNIP_SAFE_DEFINE_LARGER_UNSIGNED_OPS(psnip_uint64_t, uint64)
+#endif
+#endif
+
+#endif /* !defined(PSNIP_SAFE_NO_PROMOTIONS) */
+
+#define PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(T, name, op_name) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_##op_name(T* res, T a, T b) { \
+    return !__builtin_##op_name##_overflow(a, b, res); \
+  }
+
+#define PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(T, name, op_name, min, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_##op_name(T* res, T a, T b) { \
+    const psnip_safe_##name##_larger r = psnip_safe_larger_##name##_##op_name(a, b); \
+    *res = (T) r; \
+    return (r >= min) && (r <= max); \
+  }
+
+#define PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(T, name, op_name, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_##op_name(T* res, T a, T b) { \
+    const psnip_safe_##name##_larger r = psnip_safe_larger_##name##_##op_name(a, b); \
+    *res = (T) r; \
+    return (r <= max); \
+  }
+
+#define PSNIP_SAFE_DEFINE_SIGNED_ADD(T, name, min, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_add (T* res, T a, T b) { \
+    psnip_safe_bool r = !( ((b > 0) && (a > (max - b))) ||   \
+                 ((b < 0) && (a < (min - b))) ); \
+    if(PSNIP_SAFE_LIKELY(r)) \
+        *res = a + b; \
+    return r; \
+  }
+
+#define PSNIP_SAFE_DEFINE_UNSIGNED_ADD(T, name, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_add (T* res, T a, T b) { \
+    *res = (T) (a + b); \
+    return !PSNIP_SAFE_UNLIKELY((b > 0) && (a > (max - b))); \
+  }
+
+#define PSNIP_SAFE_DEFINE_SIGNED_SUB(T, name, min, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_sub (T* res, T a, T b) { \
+      psnip_safe_bool r = !((b > 0 && a < (min + b)) || \
+                  (b < 0 && a > (max + b))); \
+      if(PSNIP_SAFE_LIKELY(r)) \
+          *res = a - b; \
+      return r; \
+  }
+
+#define PSNIP_SAFE_DEFINE_UNSIGNED_SUB(T, name, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_sub (T* res, T a, T b) { \
+      *res = a - b; \
+      return !PSNIP_SAFE_UNLIKELY(b > a); \
+  }
+
+#define PSNIP_SAFE_DEFINE_SIGNED_MUL(T, name, min, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_mul (T* res, T a, T b) { \
+    psnip_safe_bool r = 1;  \
+    if (a > 0) { \
+      if (b > 0) { \
+        if (a > (max / b)) { \
+          r = 0; \
+        } \
+      } else { \
+        if (b < (min / a)) { \
+          r = 0; \
+        } \
+      } \
+    } else { \
+      if (b > 0) { \
+        if (a < (min / b)) { \
+          r = 0; \
+        } \
+      } else { \
+        if ( (a != 0) && (b < (max / a))) { \
+          r = 0; \
+        } \
+      } \
+    } \
+    if(PSNIP_SAFE_LIKELY(r)) \
+        *res = a * b; \
+    return r; \
+  }
+
+#define PSNIP_SAFE_DEFINE_UNSIGNED_MUL(T, name, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_mul (T* res, T a, T b) { \
+    *res = (T) (a * b); \
+    return !PSNIP_SAFE_UNLIKELY((a > 0) && (b > 0) && (a > (max / b))); \
+  }
+
+#define PSNIP_SAFE_DEFINE_SIGNED_DIV(T, name, min, max)   \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_div (T* res, T a, T b) { \
+    if (PSNIP_SAFE_UNLIKELY(b == 0)) { \
+      *res = 0; \
+      return 0; \
+    } else if (PSNIP_SAFE_UNLIKELY(a == min && b == -1)) {    \
+      *res = min; \
+      return 0; \
+    } else { \
+      *res = (T) (a / b); \
+      return 1; \
+    } \
+  }
+
+#define PSNIP_SAFE_DEFINE_UNSIGNED_DIV(T, name, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_div (T* res, T a, T b) { \
+    if (PSNIP_SAFE_UNLIKELY(b == 0)) { \
+      *res = 0; \
+      return 0; \
+    } else { \
+      *res = a / b; \
+      return 1; \
+    } \
+  }
+
+#define PSNIP_SAFE_DEFINE_SIGNED_MOD(T, name, min, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_mod (T* res, T a, T b) { \
+    if (PSNIP_SAFE_UNLIKELY(b == 0)) { \
+      *res = 0; \
+      return 0; \
+    } else if (PSNIP_SAFE_UNLIKELY(a == min && b == -1)) { \
+      *res = min; \
+      return 0; \
+    } else { \
+      *res = (T) (a % b); \
+      return 1; \
+    } \
+  }
+
+#define PSNIP_SAFE_DEFINE_UNSIGNED_MOD(T, name, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_mod (T* res, T a, T b) { \
+    if (PSNIP_SAFE_UNLIKELY(b == 0)) { \
+      *res = 0; \
+      return 0; \
+    } else { \
+      *res = a % b; \
+      return 1; \
+    } \
+  }
+
+#define PSNIP_SAFE_DEFINE_SIGNED_NEG(T, name, min, max) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_neg (T* res, T value) { \
+    psnip_safe_bool r = value != min; \
+    *res = PSNIP_SAFE_LIKELY(r) ? -value : max; \
+    return r; \
+  }
+
+#define PSNIP_SAFE_DEFINE_INTSAFE(T, name, op, isf) \
+  PSNIP_SAFE__FUNCTION psnip_safe_bool \
+  psnip_safe_##name##_##op (T* res, T a, T b) { \
+    return isf(a, b, res) == S_OK; \
+  }
+
+#if CHAR_MIN == 0
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_CHAR)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(char, char, add, CHAR_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(char, char, sub, CHAR_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(char, char, mul, CHAR_MAX)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(char, char, CHAR_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(char, char, CHAR_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(char, char, CHAR_MAX)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(char, char, CHAR_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(char, char, CHAR_MAX)
+#else /* CHAR_MIN != 0 */
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(char, char, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_CHAR)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(char, char, add, CHAR_MIN, CHAR_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(char, char, sub, CHAR_MIN, CHAR_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(char, char, mul, CHAR_MIN, CHAR_MAX)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(char, char, CHAR_MIN, CHAR_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(char, char, CHAR_MIN, CHAR_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(char, char, CHAR_MIN, CHAR_MAX)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(char, char, CHAR_MIN, CHAR_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(char, char, CHAR_MIN, CHAR_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(char, char, CHAR_MIN, CHAR_MAX)
+#endif
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(signed char, schar, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(signed char, schar, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(signed char, schar, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_SCHAR)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(signed char, schar, add, SCHAR_MIN, SCHAR_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(signed char, schar, sub, SCHAR_MIN, SCHAR_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(signed char, schar, mul, SCHAR_MIN, SCHAR_MAX)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(signed char, schar, SCHAR_MIN, SCHAR_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(signed char, schar, SCHAR_MIN, SCHAR_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(signed char, schar, SCHAR_MIN, SCHAR_MAX)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(signed char, schar, SCHAR_MIN, SCHAR_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(signed char, schar, SCHAR_MIN, SCHAR_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(signed char, schar, SCHAR_MIN, SCHAR_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned char, uchar, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned char, uchar, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned char, uchar, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_UCHAR)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned char, uchar, add, UCHAR_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned char, uchar, sub, UCHAR_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned char, uchar, mul, UCHAR_MAX)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned char, uchar, UCHAR_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned char, uchar, UCHAR_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned char, uchar, UCHAR_MAX)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned char, uchar, UCHAR_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned char, uchar, UCHAR_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(short, short, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(short, short, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(short, short, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_SHORT)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(short, short, add, SHRT_MIN, SHRT_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(short, short, sub, SHRT_MIN, SHRT_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(short, short, mul, SHRT_MIN, SHRT_MAX)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(short, short, SHRT_MIN, SHRT_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(short, short, SHRT_MIN, SHRT_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(short, short, SHRT_MIN, SHRT_MAX)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(short, short, SHRT_MIN, SHRT_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(short, short, SHRT_MIN, SHRT_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(short, short, SHRT_MIN, SHRT_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned short, ushort, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned short, ushort, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned short, ushort, mul)
+#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned short, ushort, add, UShortAdd)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned short, ushort, sub, UShortSub)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned short, ushort, mul, UShortMult)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_USHORT)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned short, ushort, add, USHRT_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned short, ushort, sub, USHRT_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned short, ushort, mul, USHRT_MAX)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned short, ushort, USHRT_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned short, ushort, USHRT_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned short, ushort, USHRT_MAX)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned short, ushort, USHRT_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned short, ushort, USHRT_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(int, int, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(int, int, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(int, int, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_INT)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(int, int, add, INT_MIN, INT_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(int, int, sub, INT_MIN, INT_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(int, int, mul, INT_MIN, INT_MAX)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(int, int, INT_MIN, INT_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(int, int, INT_MIN, INT_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(int, int, INT_MIN, INT_MAX)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(int, int, INT_MIN, INT_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(int, int, INT_MIN, INT_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(int, int, INT_MIN, INT_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned int, uint, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned int, uint, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned int, uint, mul)
+#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned int, uint, add, UIntAdd)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned int, uint, sub, UIntSub)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned int, uint, mul, UIntMult)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned int, uint, add, UINT_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned int, uint, sub, UINT_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned int, uint, mul, UINT_MAX)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned int, uint, UINT_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned int, uint, UINT_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned int, uint, UINT_MAX)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned int, uint, UINT_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned int, uint, UINT_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long, long, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long, long, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long, long, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_LONG)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long, long, add, LONG_MIN, LONG_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long, long, sub, LONG_MIN, LONG_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long, long, mul, LONG_MIN, LONG_MAX)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(long, long, LONG_MIN, LONG_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(long, long, LONG_MIN, LONG_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(long, long, LONG_MIN, LONG_MAX)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(long, long, LONG_MIN, LONG_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(long, long, LONG_MIN, LONG_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(long, long, LONG_MIN, LONG_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long, ulong, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long, ulong, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long, ulong, mul)
+#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned long, ulong, add, ULongAdd)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned long, ulong, sub, ULongSub)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned long, ulong, mul, ULongMult)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_ULONG)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long, ulong, add, ULONG_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long, ulong, sub, ULONG_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long, ulong, mul, ULONG_MAX)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned long, ulong, ULONG_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned long, ulong, ULONG_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned long, ulong, ULONG_MAX)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned long, ulong, ULONG_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned long, ulong, ULONG_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long long, llong, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long long, llong, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(long long, llong, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_LLONG)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long long, llong, add, LLONG_MIN, LLONG_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long long, llong, sub, LLONG_MIN, LLONG_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(long long, llong, mul, LLONG_MIN, LLONG_MAX)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(long long, llong, LLONG_MIN, LLONG_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(long long, llong, LLONG_MIN, LLONG_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(long long, llong, LLONG_MIN, LLONG_MAX)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(long long, llong, LLONG_MIN, LLONG_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(long long, llong, LLONG_MIN, LLONG_MAX)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(long long, llong, LLONG_MIN, LLONG_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long long, ullong, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long long, ullong, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(unsigned long long, ullong, mul)
+#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned long long, ullong, add, ULongLongAdd)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned long long, ullong, sub, ULongLongSub)
+PSNIP_SAFE_DEFINE_INTSAFE(unsigned long long, ullong, mul, ULongLongMult)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_ULLONG)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long long, ullong, add, ULLONG_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long long, ullong, sub, ULLONG_MAX)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(unsigned long long, ullong, mul, ULLONG_MAX)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(unsigned long long, ullong, ULLONG_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(unsigned long long, ullong, ULLONG_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(unsigned long long, ullong, ULLONG_MAX)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(unsigned long long, ullong, ULLONG_MAX)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(unsigned long long, ullong, ULLONG_MAX)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(size_t, size, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(size_t, size, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(size_t, size, mul)
+#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H)
+PSNIP_SAFE_DEFINE_INTSAFE(size_t, size, add, SizeTAdd)
+PSNIP_SAFE_DEFINE_INTSAFE(size_t, size, sub, SizeTSub)
+PSNIP_SAFE_DEFINE_INTSAFE(size_t, size, mul, SizeTMult)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_SIZE)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(size_t, size, add, PSNIP_SAFE__SIZE_MAX_RT)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(size_t, size, sub, PSNIP_SAFE__SIZE_MAX_RT)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(size_t, size, mul, PSNIP_SAFE__SIZE_MAX_RT)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(size_t, size, PSNIP_SAFE__SIZE_MAX_RT)
+
+#if !defined(PSNIP_SAFE_NO_FIXED)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int8_t, int8, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int8_t, int8, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int8_t, int8, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_INT8)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int8_t, int8, add, (-0x7fLL-1), 0x7f)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int8_t, int8, sub, (-0x7fLL-1), 0x7f)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int8_t, int8, mul, (-0x7fLL-1), 0x7f)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(psnip_int8_t, int8, (-0x7fLL-1), 0x7f)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint8_t, uint8, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint8_t, uint8, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint8_t, uint8, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT8)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint8_t, uint8, add, 0xff)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint8_t, uint8, sub, 0xff)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint8_t, uint8, mul, 0xff)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(psnip_uint8_t, uint8, 0xff)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(psnip_uint8_t, uint8, 0xff)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(psnip_uint8_t, uint8, 0xff)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(psnip_uint8_t, uint8, 0xff)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(psnip_uint8_t, uint8, 0xff)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int16_t, int16, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int16_t, int16, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int16_t, int16, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_INT16)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int16_t, int16, add, (-32767-1), 0x7fff)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int16_t, int16, sub, (-32767-1), 0x7fff)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int16_t, int16, mul, (-32767-1), 0x7fff)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(psnip_int16_t, int16, (-32767-1), 0x7fff)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(psnip_int16_t, int16, (-32767-1), 0x7fff)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(psnip_int16_t, int16, (-32767-1), 0x7fff)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(psnip_int16_t, int16, (-32767-1), 0x7fff)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(psnip_int16_t, int16, (-32767-1), 0x7fff)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(psnip_int16_t, int16, (-32767-1), 0x7fff)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint16_t, uint16, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint16_t, uint16, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint16_t, uint16, mul)
+#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H) && defined(_WIN32)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint16_t, uint16, add, UShortAdd)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint16_t, uint16, sub, UShortSub)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint16_t, uint16, mul, UShortMult)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT16)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint16_t, uint16, add, 0xffff)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint16_t, uint16, sub, 0xffff)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint16_t, uint16, mul, 0xffff)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(psnip_uint16_t, uint16, 0xffff)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(psnip_uint16_t, uint16, 0xffff)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(psnip_uint16_t, uint16, 0xffff)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(psnip_uint16_t, uint16, 0xffff)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(psnip_uint16_t, uint16, 0xffff)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int32_t, int32, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int32_t, int32, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int32_t, int32, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_INT32)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int32_t, int32, add, (-0x7fffffffLL-1), 0x7fffffffLL)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int32_t, int32, sub, (-0x7fffffffLL-1), 0x7fffffffLL)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int32_t, int32, mul, (-0x7fffffffLL-1), 0x7fffffffLL)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(psnip_int32_t, int32, (-0x7fffffffLL-1), 0x7fffffffLL)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint32_t, uint32, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint32_t, uint32, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint32_t, uint32, mul)
+#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H) && defined(_WIN32)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint32_t, uint32, add, UIntAdd)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint32_t, uint32, sub, UIntSub)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint32_t, uint32, mul, UIntMult)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT32)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint32_t, uint32, add, 0xffffffffUL)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint32_t, uint32, sub, 0xffffffffUL)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint32_t, uint32, mul, 0xffffffffUL)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(psnip_uint32_t, uint32, 0xffffffffUL)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(psnip_uint32_t, uint32, 0xffffffffUL)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(psnip_uint32_t, uint32, 0xffffffffUL)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(psnip_uint32_t, uint32, 0xffffffffUL)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(psnip_uint32_t, uint32, 0xffffffffUL)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int64_t, int64, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int64_t, int64, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_int64_t, int64, mul)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_INT64)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int64_t, int64, add, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int64_t, int64, sub, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+PSNIP_SAFE_DEFINE_PROMOTED_SIGNED_BINARY_OP(psnip_int64_t, int64, mul, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+#else
+PSNIP_SAFE_DEFINE_SIGNED_ADD(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+PSNIP_SAFE_DEFINE_SIGNED_SUB(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+PSNIP_SAFE_DEFINE_SIGNED_MUL(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+#endif
+PSNIP_SAFE_DEFINE_SIGNED_DIV(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+PSNIP_SAFE_DEFINE_SIGNED_MOD(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+PSNIP_SAFE_DEFINE_SIGNED_NEG(psnip_int64_t, int64, (-0x7fffffffffffffffLL-1), 0x7fffffffffffffffLL)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint64_t, uint64, add)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint64_t, uint64, sub)
+PSNIP_SAFE_DEFINE_BUILTIN_BINARY_OP(psnip_uint64_t, uint64, mul)
+#elif defined(PSNIP_SAFE_HAVE_INTSAFE_H) && defined(_WIN32)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint64_t, uint64, add, ULongLongAdd)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint64_t, uint64, sub, ULongLongSub)
+PSNIP_SAFE_DEFINE_INTSAFE(psnip_uint64_t, uint64, mul, ULongLongMult)
+#elif defined(PSNIP_SAFE_HAVE_LARGER_UINT64)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint64_t, uint64, add, 0xffffffffffffffffULL)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint64_t, uint64, sub, 0xffffffffffffffffULL)
+PSNIP_SAFE_DEFINE_PROMOTED_UNSIGNED_BINARY_OP(psnip_uint64_t, uint64, mul, 0xffffffffffffffffULL)
+#else
+PSNIP_SAFE_DEFINE_UNSIGNED_ADD(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
+PSNIP_SAFE_DEFINE_UNSIGNED_SUB(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
+PSNIP_SAFE_DEFINE_UNSIGNED_MUL(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
+#endif
+PSNIP_SAFE_DEFINE_UNSIGNED_DIV(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
+PSNIP_SAFE_DEFINE_UNSIGNED_MOD(psnip_uint64_t, uint64, 0xffffffffffffffffULL)
+
+#endif /* !defined(PSNIP_SAFE_NO_FIXED) */
+
+#define PSNIP_SAFE_C11_GENERIC_SELECTION(res, op) \
+  _Generic((*res), \
+	   char: psnip_safe_char_##op, \
+	   unsigned char: psnip_safe_uchar_##op, \
+	   short: psnip_safe_short_##op, \
+	   unsigned short: psnip_safe_ushort_##op, \
+	   int: psnip_safe_int_##op, \
+	   unsigned int: psnip_safe_uint_##op, \
+	   long: psnip_safe_long_##op, \
+	   unsigned long: psnip_safe_ulong_##op, \
+	   long long: psnip_safe_llong_##op, \
+	   unsigned long long: psnip_safe_ullong_##op)
+
+#define PSNIP_SAFE_C11_GENERIC_BINARY_OP(op, res, a, b) \
+  PSNIP_SAFE_C11_GENERIC_SELECTION(res, op)(res, a, b)
+#define PSNIP_SAFE_C11_GENERIC_UNARY_OP(op, res, v) \
+  PSNIP_SAFE_C11_GENERIC_SELECTION(res, op)(res, v)
+
+#if defined(PSNIP_SAFE_HAVE_BUILTIN_OVERFLOW)
+#define psnip_safe_add(res, a, b) !__builtin_add_overflow(a, b, res)
+#define psnip_safe_sub(res, a, b) !__builtin_sub_overflow(a, b, res)
+#define psnip_safe_mul(res, a, b) !__builtin_mul_overflow(a, b, res)
+#define psnip_safe_div(res, a, b) !__builtin_div_overflow(a, b, res)
+#define psnip_safe_mod(res, a, b) !__builtin_mod_overflow(a, b, res)
+#define psnip_safe_neg(res, v)    PSNIP_SAFE_C11_GENERIC_UNARY_OP (neg, res, v)
+
+#elif defined(__STDC_VERSION__) && (__STDC_VERSION__ >= 201112L)
+/* The are no fixed-length or size selections because they cause an
+ * error about _Generic specifying two compatible types.  Hopefully
+ * this doesn't cause problems on exotic platforms, but if it does
+ * please let me know and I'll try to figure something out. */
+
+#define psnip_safe_add(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(add, res, a, b)
+#define psnip_safe_sub(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(sub, res, a, b)
+#define psnip_safe_mul(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(mul, res, a, b)
+#define psnip_safe_div(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(div, res, a, b)
+#define psnip_safe_mod(res, a, b) PSNIP_SAFE_C11_GENERIC_BINARY_OP(mod, res, a, b)
+#define psnip_safe_neg(res, v)    PSNIP_SAFE_C11_GENERIC_UNARY_OP (neg, res, v)
+#endif
+
+#if !defined(PSNIP_SAFE_HAVE_BUILTINS) && (defined(PSNIP_SAFE_EMULATE_NATIVE) || defined(PSNIP_BUILTIN_EMULATE_NATIVE))
+#  define __builtin_sadd_overflow(a, b, res)   (!psnip_safe_int_add(res, a, b))
+#  define __builtin_saddl_overflow(a, b, res)  (!psnip_safe_long_add(res, a, b))
+#  define __builtin_saddll_overflow(a, b, res) (!psnip_safe_llong_add(res, a, b))
+#  define __builtin_uadd_overflow(a, b, res)   (!psnip_safe_uint_add(res, a, b))
+#  define __builtin_uaddl_overflow(a, b, res)  (!psnip_safe_ulong_add(res, a, b))
+#  define __builtin_uaddll_overflow(a, b, res) (!psnip_safe_ullong_add(res, a, b))
+
+#  define __builtin_ssub_overflow(a, b, res)   (!psnip_safe_int_sub(res, a, b))
+#  define __builtin_ssubl_overflow(a, b, res)  (!psnip_safe_long_sub(res, a, b))
+#  define __builtin_ssubll_overflow(a, b, res) (!psnip_safe_llong_sub(res, a, b))
+#  define __builtin_usub_overflow(a, b, res)   (!psnip_safe_uint_sub(res, a, b))
+#  define __builtin_usubl_overflow(a, b, res)  (!psnip_safe_ulong_sub(res, a, b))
+#  define __builtin_usubll_overflow(a, b, res) (!psnip_safe_ullong_sub(res, a, b))
+
+#  define __builtin_smul_overflow(a, b, res)   (!psnip_safe_int_mul(res, a, b))
+#  define __builtin_smull_overflow(a, b, res)  (!psnip_safe_long_mul(res, a, b))
+#  define __builtin_smulll_overflow(a, b, res) (!psnip_safe_llong_mul(res, a, b))
+#  define __builtin_umul_overflow(a, b, res)   (!psnip_safe_uint_mul(res, a, b))
+#  define __builtin_umull_overflow(a, b, res)  (!psnip_safe_ulong_mul(res, a, b))
+#  define __builtin_umulll_overflow(a, b, res) (!psnip_safe_ullong_mul(res, a, b))
+#endif
+
+#endif /* !defined(PSNIP_SAFE_H) */
diff --git a/go/arrow/compute/internal/kernels/_lib/types.h b/go/arrow/compute/internal/kernels/_lib/types.h
new file mode 100644
index 00000000000..fe222501b4b
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/_lib/types.h
@@ -0,0 +1,477 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+// corresponds to datatype.go's arrow.Type
+enum class arrtype : int {
+    NULL,
+    BOOL,
+    UINT8,
+    INT8,
+    UINT16,
+    INT16,
+    UINT32,
+    INT32,
+    UINT64,
+    INT64,
+    FLOAT16,
+    FLOAT32,
+    FLOAT64
+};
+
+// Copied from <type_traits> since we use -target x86_64-target-none
+// makes life easier rather than creating is_integral, etc. templates
+// ourselves
+
+/// remove_cv
+  template<typename _Tp>
+    struct remove_cv
+    { using type = _Tp; };
+
+  template<typename _Tp>
+    struct remove_cv<const _Tp>
+    { using type = _Tp; };
+
+  template<typename _Tp>
+    struct remove_cv<volatile _Tp>
+    { using type = _Tp; };
+
+  template<typename _Tp>
+    struct remove_cv<const volatile _Tp>
+    { using type = _Tp; };
+
+// __remove_cv_t (std::remove_cv_t for C++11).
+  template<typename _Tp>
+    using __remove_cv_t = typename remove_cv<_Tp>::type;
+
+
+  /// integral_constant
+  template<typename _Tp, _Tp __v>
+    struct integral_constant
+    {
+      static constexpr _Tp                  value = __v;
+      typedef _Tp                           value_type;
+      typedef integral_constant<_Tp, __v>   type;
+      constexpr operator value_type() const noexcept { return value; }
+#if __cplusplus > 201103L
+
+#define __cpp_lib_integral_constant_callable 201304
+
+      constexpr value_type operator()() const noexcept { return value; }
+#endif
+    };
+
+  template<typename _Tp, _Tp __v>
+    constexpr _Tp integral_constant<_Tp, __v>::value;
+
+
+  /// The type used as a compile-time boolean with true value.
+  using true_type =  integral_constant<bool, true>;
+
+  /// The type used as a compile-time boolean with false value.
+  using false_type = integral_constant<bool, false>;
+
+  /// @cond undocumented
+  /// bool_constant for C++11
+  template<bool __v>
+    using __bool_constant = integral_constant<bool, __v>;
+  /// @endcond
+
+#if __cplusplus >= 201703L
+# define __cpp_lib_bool_constant 201505
+  /// Alias template for compile-time boolean constant types.
+  /// @since C++17
+  template<bool __v>
+    using bool_constant = integral_constant<bool, __v>;
+#endif
+
+  /// is_same
+  template<typename _Tp, typename _Up>
+    struct is_same
+#ifdef _GLIBCXX_HAVE_BUILTIN_IS_SAME
+    : public integral_constant<bool, __is_same(_Tp, _Up)>
+#else
+    : public false_type
+#endif
+    { };
+
+#ifndef _GLIBCXX_HAVE_BUILTIN_IS_SAME
+  template<typename _Tp>
+    struct is_same<_Tp, _Tp>
+    : public true_type
+    { };
+#endif
+
+
+  template<bool, typename, typename>
+    struct conditional;
+
+  /// @cond undocumented
+  template <typename _Type>
+    struct __type_identity
+    { using type = _Type; };
+
+  template<typename _Tp>
+    using __type_identity_t = typename __type_identity<_Tp>::type;
+
+  template<typename...>
+    struct __or_;
+
+  template<>
+    struct __or_<>
+    : public false_type
+    { };
+
+  template<typename _B1>
+    struct __or_<_B1>
+    : public _B1
+    { };
+
+  template<typename _B1, typename _B2>
+    struct __or_<_B1, _B2>
+    : public conditional<_B1::value, _B1, _B2>::type
+    { };
+
+  template<typename _B1, typename _B2, typename _B3, typename... _Bn>
+    struct __or_<_B1, _B2, _B3, _Bn...>
+    : public conditional<_B1::value, _B1, __or_<_B2, _B3, _Bn...>>::type
+    { };
+
+  template<typename...>
+    struct __and_;
+
+  template<>
+    struct __and_<>
+    : public true_type
+    { };
+
+  template<typename _B1>
+    struct __and_<_B1>
+    : public _B1
+    { };
+
+  template<typename _B1, typename _B2>
+    struct __and_<_B1, _B2>
+    : public conditional<_B1::value, _B2, _B1>::type
+    { };
+
+  template<typename _B1, typename _B2, typename _B3, typename... _Bn>
+    struct __and_<_B1, _B2, _B3, _Bn...>
+    : public conditional<_B1::value, __and_<_B2, _B3, _Bn...>, _B1>::type
+    { };
+
+  template<typename _Pp>
+    struct __not_
+    : public __bool_constant<!bool(_Pp::value)>
+    { };
+  /// @endcond
+
+#if __cplusplus >= 201703L
+
+  /// @cond undocumented
+  template<typename... _Bn>
+    inline constexpr bool __or_v = __or_<_Bn...>::value;
+  template<typename... _Bn>
+    inline constexpr bool __and_v = __and_<_Bn...>::value;
+  /// @endcond
+#endif
+
+  /// remove_reference
+  template<typename _Tp>
+    struct remove_reference
+    { typedef _Tp   type; };
+
+  template<typename _Tp>
+    struct remove_reference<_Tp&>
+    { typedef _Tp   type; };
+
+  template<typename _Tp>
+    struct remove_reference<_Tp&&>
+    { typedef _Tp   type; };
+
+
+// Primary template.
+  /// Define a member typedef `type` only if a boolean constant is true.
+  template<bool, typename _Tp = void>
+    struct enable_if
+    { };
+
+  // Partial specialization for true.
+  template<typename _Tp>
+    struct enable_if<true, _Tp>
+    { typedef _Tp type; };
+
+  /// @cond undocumented
+
+  // __enable_if_t (std::enable_if_t for C++11)
+  template<bool _Cond, typename _Tp = void>
+    using __enable_if_t = typename enable_if<_Cond, _Tp>::type;
+
+  // Helper for SFINAE constraints
+  template<typename... _Cond>
+    using _Require = __enable_if_t<__and_<_Cond...>::value>;
+
+
+/// Alias template for enable_if
+  template<bool _Cond, typename _Tp = void>
+    using enable_if_t = typename enable_if<_Cond, _Tp>::type;
+
+  // __remove_cvref_t (std::remove_cvref_t for C++11).
+  template<typename _Tp>
+    using __remove_cvref_t
+     = typename remove_cv<typename remove_reference<_Tp>::type>::type;
+  /// @endcond
+
+  // Primary template.
+  /// Define a member typedef @c type to one of two argument types.
+  template<bool _Cond, typename _Iftrue, typename _Iffalse>
+    struct conditional
+    { typedef _Iftrue type; };
+
+  // Partial specialization for false.
+  template<typename _Iftrue, typename _Iffalse>
+    struct conditional<false, _Iftrue, _Iffalse>
+    { typedef _Iffalse type; };
+
+
+/// @cond undocumented
+  template<typename _Tp, typename... _Types>
+    using __is_one_of = __or_<is_same<_Tp, _Types>...>;
+
+  /// @cond undocumented
+  template<typename>
+    struct __is_integral_helper
+    : public false_type { };
+
+  template<>
+    struct __is_integral_helper<bool>
+    : public true_type { };
+
+  template<>
+    struct __is_integral_helper<char>
+    : public true_type { };
+
+  template<>
+    struct __is_integral_helper<signed char>
+    : public true_type { };
+
+  template<>
+    struct __is_integral_helper<unsigned char>
+    : public true_type { };
+
+  // We want is_integral<wchar_t> to be true (and make_signed/unsigned to work)
+  // even when libc doesn't provide working <wchar.h> and related functions,
+  // so check __WCHAR_TYPE__ instead of _GLIBCXX_USE_WCHAR_T.
+#ifdef __WCHAR_TYPE__
+  template<>
+    struct __is_integral_helper<wchar_t>
+    : public true_type { };
+#endif
+
+#ifdef _GLIBCXX_USE_CHAR8_T
+  template<>
+    struct __is_integral_helper<char8_t>
+    : public true_type { };
+#endif
+
+  template<>
+    struct __is_integral_helper<char16_t>
+    : public true_type { };
+
+  template<>
+    struct __is_integral_helper<char32_t>
+    : public true_type { };
+
+  template<>
+    struct __is_integral_helper<short>
+    : public true_type { };
+
+  template<>
+    struct __is_integral_helper<unsigned short>
+    : public true_type { };
+
+  template<>
+    struct __is_integral_helper<int>
+    : public true_type { };
+
+  template<>
+    struct __is_integral_helper<unsigned int>
+    : public true_type { };
+
+  template<>
+    struct __is_integral_helper<long>
+    : public true_type { };
+
+  template<>
+    struct __is_integral_helper<unsigned long>
+    : public true_type { };
+
+  template<>
+    struct __is_integral_helper<long long>
+    : public true_type { };
+
+  template<>
+    struct __is_integral_helper<unsigned long long>
+    : public true_type { };
+
+  // Conditionalizing on __STRICT_ANSI__ here will break any port that
+  // uses one of these types for size_t.
+#if defined(__GLIBCXX_TYPE_INT_N_0)
+  template<>
+    struct __is_integral_helper<__GLIBCXX_TYPE_INT_N_0>
+    : public true_type { };
+
+  template<>
+    struct __is_integral_helper<unsigned __GLIBCXX_TYPE_INT_N_0>
+    : public true_type { };
+#endif
+#if defined(__GLIBCXX_TYPE_INT_N_1)
+  template<>
+    struct __is_integral_helper<__GLIBCXX_TYPE_INT_N_1>
+    : public true_type { };
+
+  template<>
+    struct __is_integral_helper<unsigned __GLIBCXX_TYPE_INT_N_1>
+    : public true_type { };
+#endif
+#if defined(__GLIBCXX_TYPE_INT_N_2)
+  template<>
+    struct __is_integral_helper<__GLIBCXX_TYPE_INT_N_2>
+    : public true_type { };
+
+  template<>
+    struct __is_integral_helper<unsigned __GLIBCXX_TYPE_INT_N_2>
+    : public true_type { };
+#endif
+#if defined(__GLIBCXX_TYPE_INT_N_3)
+  template<>
+    struct __is_integral_helper<__GLIBCXX_TYPE_INT_N_3>
+    : public true_type { };
+
+  template<>
+    struct __is_integral_helper<unsigned __GLIBCXX_TYPE_INT_N_3>
+    : public true_type { };
+#endif
+  /// @endcond
+
+  /// is_integral
+  template<typename _Tp>
+    struct is_integral
+    : public __is_integral_helper<__remove_cv_t<_Tp>>::type
+    { };
+
+  /// @cond undocumented
+  template<typename>
+    struct __is_floating_point_helper
+    : public false_type { };
+
+  template<>
+    struct __is_floating_point_helper<float>
+    : public true_type { };
+
+  template<>
+    struct __is_floating_point_helper<double>
+    : public true_type { };
+
+  template<>
+    struct __is_floating_point_helper<long double>
+    : public true_type { };
+
+  /// is_floating_point
+  template<typename _Tp>
+    struct is_floating_point
+    : public __is_floating_point_helper<__remove_cv_t<_Tp>>::type
+    { };
+
+
+  // Check if a type is one of the unsigned integer types.
+  template<typename _Tp>
+    using __is_unsigned_integer = __is_one_of<__remove_cv_t<_Tp>,
+	  unsigned char, unsigned short, unsigned int, unsigned long,
+	  unsigned long long
+#if defined(__GLIBCXX_TYPE_INT_N_0)
+	  , unsigned __GLIBCXX_TYPE_INT_N_0
+#endif
+#if defined(__GLIBCXX_TYPE_INT_N_1)
+	  , unsigned __GLIBCXX_TYPE_INT_N_1
+#endif
+#if defined(__GLIBCXX_TYPE_INT_N_2)
+	  , unsigned __GLIBCXX_TYPE_INT_N_2
+#endif
+#if defined(__GLIBCXX_TYPE_INT_N_3)
+	  , unsigned __GLIBCXX_TYPE_INT_N_3
+#endif
+	  >;
+
+
+  // Check if a type is one of the signed integer types.
+  template<typename _Tp>
+    using __is_signed_integer = __is_one_of<__remove_cv_t<_Tp>,
+	  signed char, signed short, signed int, signed long,
+	  signed long long
+#if defined(__GLIBCXX_TYPE_INT_N_0)
+	  , signed __GLIBCXX_TYPE_INT_N_0
+#endif
+#if defined(__GLIBCXX_TYPE_INT_N_1)
+	  , signed __GLIBCXX_TYPE_INT_N_1
+#endif
+#if defined(__GLIBCXX_TYPE_INT_N_2)
+	  , signed __GLIBCXX_TYPE_INT_N_2
+#endif
+#if defined(__GLIBCXX_TYPE_INT_N_3)
+	  , signed __GLIBCXX_TYPE_INT_N_3
+#endif
+	  >;
+
+
+  /// is_arithmetic
+  template<typename _Tp>
+    struct is_arithmetic
+    : public __or_<is_integral<_Tp>, is_floating_point<_Tp>>::type
+    { };
+
+
+  /// @cond undocumented
+  template<typename _Tp,
+	   bool = is_arithmetic<_Tp>::value>
+    struct __is_signed_helper
+    : public false_type { };
+
+  template<typename _Tp>
+    struct __is_signed_helper<_Tp, true>
+    : public integral_constant<bool, _Tp(-1) < _Tp(0)>
+    { };
+  /// @endcond
+
+  /// is_signed
+  template<typename _Tp>
+    struct is_signed
+    : public __is_signed_helper<_Tp>::type
+    { };
+
+  /// is_unsigned
+  template<typename _Tp>
+    struct is_unsigned
+    : public __and_<is_arithmetic<_Tp>, __not_<is_signed<_Tp>>>
+    { };
+
+template <typename _Tp>
+  inline constexpr bool is_integral_v = is_integral<_Tp>::value;
+template <typename _Tp>
+  inline constexpr bool is_floating_point_v = is_floating_point<_Tp>::value;
+template <typename _Tp>
+  inline constexpr bool is_signed_v = is_signed<_Tp>::value;
+template <typename _Tp>
+  inline constexpr bool is_unsigned_v = is_unsigned<_Tp>::value;
\ No newline at end of file
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic.go b/go/arrow/compute/internal/kernels/base_arithmetic.go
new file mode 100644
index 00000000000..a6dc3d39c3f
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/base_arithmetic.go
@@ -0,0 +1,141 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+package kernels
+
+import (
+	"fmt"
+	"math/bits"
+
+	"github.com/apache/arrow/go/v10/arrow"
+	"github.com/apache/arrow/go/v10/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v10/arrow/internal/debug"
+	"golang.org/x/exp/constraints"
+)
+
+type ArithmeticOp int8
+
+const (
+	OpAdd ArithmeticOp = iota
+	OpAddChecked
+	OpSub
+	OpSubChecked
+)
+
+func getGoArithmeticBinaryOpsFloating[T constraints.Float](op ArithmeticOp) binaryOps[T, T, T] {
+	Op := map[ArithmeticOp]func(a, b T, e *error) T{
+		OpAdd:        func(a, b T, _ *error) T { return a + b },
+		OpAddChecked: func(a, b T, _ *error) T { return a + b },
+		OpSub:        func(a, b T, _ *error) T { return a - b },
+		OpSubChecked: func(a, b T, _ *error) T { return a - b },
+	}[op]
+
+	return binaryOps[T, T, T]{
+		arrArr: func(_ *exec.KernelCtx, left, right, out []T) error {
+			var err error
+			for i := range out {
+				out[i] = Op(left[i], right[i], &err)
+			}
+			return err
+		},
+		arrScalar: func(ctx *exec.KernelCtx, left []T, right T, out []T) error {
+			var err error
+			for i := range out {
+				out[i] = Op(left[i], right, &err)
+			}
+			return err
+		},
+		scalarArr: func(ctx *exec.KernelCtx, left T, right, out []T) error {
+			var err error
+			for i := range out {
+				out[i] = Op(left, right[i], &err)
+			}
+			return err
+		},
+	}
+}
+
+func getGoArithmeticBinaryOpsIntegral[T exec.UintTypes | exec.IntTypes](op ArithmeticOp) binaryOps[T, T, T] {
+	Op := map[ArithmeticOp]func(a, b T, e *error) T{
+		OpAdd: func(a, b T, _ *error) T { return a + b },
+		OpAddChecked: func(a, b T, e *error) T {
+			out, carry := bits.Add64(uint64(a), uint64(b), 0)
+			if carry > 0 {
+				*e = fmt.Errorf("%w: overflow", arrow.ErrInvalid)
+			}
+			return T(out)
+		},
+		OpSub: func(a, b T, _ *error) T { return a - b },
+		OpSubChecked: func(a, b T, e *error) T {
+			out, carry := bits.Sub64(uint64(a), uint64(b), 0)
+			if carry > 0 {
+				*e = fmt.Errorf("%w: overflow", arrow.ErrInvalid)
+			}
+			return T(out)
+		},
+	}[op]
+
+	return binaryOps[T, T, T]{
+		arrArr: func(_ *exec.KernelCtx, left, right, out []T) error {
+			var err error
+			for i := range out {
+				out[i] = Op(left[i], right[i], &err)
+			}
+			return err
+		},
+		arrScalar: func(ctx *exec.KernelCtx, left []T, right T, out []T) error {
+			var err error
+			for i := range out {
+				out[i] = Op(left[i], right, &err)
+			}
+			return err
+		},
+		scalarArr: func(ctx *exec.KernelCtx, left T, right, out []T) error {
+			var err error
+			for i := range out {
+				out[i] = Op(left, right[i], &err)
+			}
+			return err
+		},
+	}
+}
+
+func ArithmeticExec(ty arrow.Type, op ArithmeticOp) exec.ArrayKernelExec {
+	switch ty {
+	case arrow.INT8:
+		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsIntegral[int8](op))
+	case arrow.UINT8:
+		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsIntegral[uint8](op))
+	case arrow.INT16:
+		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsIntegral[int16](op))
+	case arrow.UINT16:
+		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsIntegral[uint16](op))
+	case arrow.INT32:
+		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsIntegral[int32](op))
+	case arrow.UINT32:
+		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsIntegral[uint32](op))
+	case arrow.INT64:
+		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsIntegral[int64](op))
+	case arrow.UINT64:
+		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsIntegral[uint64](op))
+	case arrow.FLOAT32:
+		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsFloating[float32](op))
+	case arrow.FLOAT64:
+		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsFloating[float64](op))
+	}
+	debug.Assert(false, "invalid arithmetic type")
+	return nil
+}
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_amd64.go b/go/arrow/compute/internal/kernels/base_arithmetic_amd64.go
new file mode 100644
index 00000000000..4d33d8991c3
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/base_arithmetic_amd64.go
@@ -0,0 +1,83 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build !noasm
+
+package kernels
+
+import (
+	"unsafe"
+
+	"github.com/apache/arrow/go/v10/arrow/compute/internal/exec"
+	"golang.org/x/exp/constraints"
+	"golang.org/x/sys/cpu"
+)
+
+func getAvx2ArithmeticBinaryNumeric[T exec.NumericTypes](op ArithmeticOp) binaryOps[T, T, T] {
+	typ := exec.GetType[T]()
+	return binaryOps[T, T, T]{
+		arrArr: func(_ *exec.KernelCtx, Arg0, Arg1, Out []T) error {
+			arithmeticAvx2(typ, op, exec.GetBytes(Arg0), exec.GetBytes(Arg1), exec.GetBytes(Out), len(Out))
+			return nil
+		},
+		arrScalar: func(_ *exec.KernelCtx, Arg0 []T, Arg1 T, Out []T) error {
+			arithmeticArrScalarAvx2(typ, op, exec.GetBytes(Arg0), unsafe.Pointer(&Arg1), exec.GetBytes(Out), len(Out))
+			return nil
+		},
+		scalarArr: func(_ *exec.KernelCtx, Arg0 T, Arg1, Out []T) error {
+			arithmeticScalarArrAvx2(typ, op, unsafe.Pointer(&Arg0), exec.GetBytes(Arg1), exec.GetBytes(Out), len(Out))
+			return nil
+		},
+	}
+}
+
+func getSSE4ArithmeticBinaryNumeric[T exec.NumericTypes](op ArithmeticOp) binaryOps[T, T, T] {
+	typ := exec.GetType[T]()
+	return binaryOps[T, T, T]{
+		arrArr: func(_ *exec.KernelCtx, Arg0, Arg1, Out []T) error {
+			arithmeticSSE4(typ, op, exec.GetBytes(Arg0), exec.GetBytes(Arg1), exec.GetBytes(Out), len(Out))
+			return nil
+		},
+		arrScalar: func(_ *exec.KernelCtx, Arg0 []T, Arg1 T, Out []T) error {
+			arithmeticArrScalarSSE4(typ, op, exec.GetBytes(Arg0), unsafe.Pointer(&Arg1), exec.GetBytes(Out), len(Out))
+			return nil
+		},
+		scalarArr: func(_ *exec.KernelCtx, Arg0 T, Arg1, Out []T) error {
+			arithmeticScalarArrSSE4(typ, op, unsafe.Pointer(&Arg0), exec.GetBytes(Arg1), exec.GetBytes(Out), len(Out))
+			return nil
+		},
+	}
+}
+
+func getArithmeticBinaryOpsFloating[T constraints.Float](op ArithmeticOp) binaryOps[T, T, T] {
+	if cpu.X86.HasAVX2 {
+		return getAvx2ArithmeticBinaryNumeric[T](op)
+	} else if cpu.X86.HasSSE42 {
+		return getSSE4ArithmeticBinaryNumeric[T](op)
+	}
+
+	return getGoArithmeticBinaryOpsFloating[T](op)
+}
+
+func getArithmeticBinaryOpsIntegral[T exec.UintTypes | exec.IntTypes](op ArithmeticOp) binaryOps[T, T, T] {
+	if cpu.X86.HasAVX2 {
+		return getAvx2ArithmeticBinaryNumeric[T](op)
+	} else if cpu.X86.HasSSE42 {
+		return getSSE4ArithmeticBinaryNumeric[T](op)
+	}
+
+	return getGoArithmeticBinaryOpsIntegral[T](op)
+}
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.go b/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.go
new file mode 100644
index 00000000000..35e72f1cc83
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.go
@@ -0,0 +1,46 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build !noasm
+
+package kernels
+
+import (
+	"unsafe"
+
+	"github.com/apache/arrow/go/v10/arrow"
+)
+
+//go:noescape
+func _arithmetic_avx2(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
+
+func arithmeticAvx2(typ arrow.Type, op ArithmeticOp, left, right, out []byte, len int) {
+	_arithmetic_avx2(int(typ), int8(op), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), len)
+}
+
+//go:noescape
+func _arithmetic_arr_scalar_avx2(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
+
+func arithmeticArrScalarAvx2(typ arrow.Type, op ArithmeticOp, left []byte, right unsafe.Pointer, out []byte, len int) {
+	_arithmetic_arr_scalar_avx2(int(typ), int8(op), unsafe.Pointer(&left[0]), right, unsafe.Pointer(&out[0]), len)
+}
+
+//go:noescape
+func _arithmetic_scalar_arr_avx2(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
+
+func arithmeticScalarArrAvx2(typ arrow.Type, op ArithmeticOp, left unsafe.Pointer, right, out []byte, len int) {
+	_arithmetic_scalar_arr_avx2(int(typ), int8(op), left, unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), len)
+}
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s b/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s
new file mode 100644
index 00000000000..e4b341d2e97
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s
@@ -0,0 +1,12857 @@
+//+build !noasm !appengine
+// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
+
+TEXT ·_arithmetic_avx2(SB), $0-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ op+8(FP), SI
+	MOVQ inLeft+16(FP), DX
+	MOVQ inRight+24(FP), CX
+	MOVQ out+32(FP), R8
+	MOVQ len+40(FP), R9
+
+	LONG $0x01fe8040         // cmp    sil, 1
+	JG   LBB0_3
+	WORD $0x8440; BYTE $0xf6 // test    sil, sil
+	JE   LBB0_5
+	LONG $0x01fe8040         // cmp    sil, 1
+	JNE  LBB0_537
+
+LBB0_138:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_151
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_140
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_184
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_196
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_271
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_208
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_213:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_215
+
+LBB0_214:
+	WORD $0x1c8b; BYTE $0xb1 // mov    ebx, dword [rcx + 4*rsi]
+	WORD $0x1c03; BYTE $0xb2 // add    ebx, dword [rdx + 4*rsi]
+	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_214
+
+LBB0_215:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_271
+
+LBB0_216:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_216
+	JMP  LBB0_271
+
+LBB0_3:
+	LONG $0x02fe8040 // cmp    sil, 2
+	JE   LBB0_271
+	LONG $0x03fe8040 // cmp    sil, 3
+	JNE  LBB0_537
+
+LBB0_404:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_417
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_406
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_450
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_462
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_537
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_474
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_479
+
+LBB0_417:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_418
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_504
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_516
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_537
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_528
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_533
+
+LBB0_5:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_18
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_7
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_51
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_63
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_138
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_75
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_80
+
+LBB0_151:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_152
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_238
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_250
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_271
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_262
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_267:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_269
+
+LBB0_268:
+	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0458fbc5; BYTE $0xf2   // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_268
+
+LBB0_269:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_271
+
+LBB0_270:
+	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0458fbc5; BYTE $0xf2               // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x4458fbc5; WORD $0x08f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x4458fbc5; WORD $0x10f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x4458fbc5; WORD $0x18f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB0_270
+	JMP  LBB0_271
+
+LBB0_18:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_19
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_105
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_117
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_138
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_129
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_134
+
+LBB0_406:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB0_429
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB0_537
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_441
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_446
+
+LBB0_418:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_483
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_537
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_495
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_500
+
+LBB0_140:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB0_163
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB0_271
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb                   // mov    r11d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_175
+	WORD $0xf631                               // xor    esi, esi
+
+LBB0_180:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_182
+
+LBB0_181:
+	LONG $0x311cb60f         // movzx    ebx, byte [rcx + rsi]
+	WORD $0x1c02; BYTE $0x32 // add    bl, byte [rdx + rsi]
+	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_181
+
+LBB0_182:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_271
+
+LBB0_183:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_183
+	JMP  LBB0_271
+
+LBB0_152:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_217
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_271
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_229
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_234:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_236
+
+LBB0_235:
+	LONG $0xf11c8b48 // mov    rbx, qword [rcx + 8*rsi]
+	LONG $0xf21c0348 // add    rbx, qword [rdx + 8*rsi]
+	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_235
+
+LBB0_236:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_271
+
+LBB0_237:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_237
+	JMP  LBB0_271
+
+LBB0_450:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_453
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_458
+
+LBB0_462:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_465
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_470
+
+LBB0_504:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_507
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_512
+
+LBB0_516:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_519
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_524
+
+LBB0_429:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_432
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_437
+
+LBB0_483:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_486
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_491
+
+LBB0_7:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB0_30
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB0_138
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb                   // mov    r11d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_42
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_47
+
+LBB0_19:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_84
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_138
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_96
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_101
+
+LBB0_184:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_187
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_192:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_194
+
+LBB0_193:
+	LONG $0x711cb70f             // movzx    ebx, word [rcx + 2*rsi]
+	LONG $0x721c0366             // add    bx, word [rdx + 2*rsi]
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_193
+
+LBB0_194:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_271
+
+LBB0_195:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
+	JNE  LBB0_195
+	JMP  LBB0_271
+
+LBB0_196:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_199
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_204:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_206
+
+LBB0_205:
+	LONG $0x711cb70f             // movzx    ebx, word [rcx + 2*rsi]
+	LONG $0x721c0366             // add    bx, word [rdx + 2*rsi]
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_205
+
+LBB0_206:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_271
+
+LBB0_207:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
+	JNE  LBB0_207
+	JMP  LBB0_271
+
+LBB0_238:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_241
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_246:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_248
+
+LBB0_247:
+	LONG $0xf11c8b48 // mov    rbx, qword [rcx + 8*rsi]
+	LONG $0xf21c0348 // add    rbx, qword [rdx + 8*rsi]
+	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_247
+
+LBB0_248:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_271
+
+LBB0_249:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_249
+	JMP  LBB0_271
+
+LBB0_250:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_253
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_258:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_260
+
+LBB0_259:
+	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x0458fac5; BYTE $0xb2   // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_259
+
+LBB0_260:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_271
+
+LBB0_261:
+	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x0458fac5; BYTE $0xb2               // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x4458fac5; WORD $0x04b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x4458fac5; WORD $0x08b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x4458fac5; WORD $0x0cb2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB0_261
+	JMP  LBB0_271
+
+LBB0_163:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb                   // mov    r11d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_166
+	WORD $0xf631                               // xor    esi, esi
+
+LBB0_171:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_173
+
+LBB0_172:
+	LONG $0x311cb60f         // movzx    ebx, byte [rcx + rsi]
+	WORD $0x1c02; BYTE $0x32 // add    bl, byte [rdx + rsi]
+	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_172
+
+LBB0_173:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_271
+
+LBB0_174:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_174
+	JMP  LBB0_271
+
+LBB0_217:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_220
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_225:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_227
+
+LBB0_226:
+	WORD $0x1c8b; BYTE $0xb1 // mov    ebx, dword [rcx + 4*rsi]
+	WORD $0x1c03; BYTE $0xb2 // add    ebx, dword [rdx + 4*rsi]
+	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_226
+
+LBB0_227:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_271
+
+LBB0_228:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_228
+	JMP  LBB0_271
+
+LBB0_51:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_54
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_59
+
+LBB0_63:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_66
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_71
+
+LBB0_105:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_108
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_113
+
+LBB0_117:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_120
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_125
+
+LBB0_30:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb                   // mov    r11d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_33
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_38
+
+LBB0_84:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_87
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_92
+
+LBB0_474:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_479
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_479
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_477:
+	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
+	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_477
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_479:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_481
+
+LBB0_480:
+	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
+	WORD $0x1c2b; BYTE $0xb1 // sub    ebx, dword [rcx + 4*rsi]
+	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_480
+
+LBB0_481:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_537
+
+LBB0_482:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_482
+	JMP  LBB0_537
+
+LBB0_528:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_533
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_533
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_531:
+	LONG $0x0410fdc5; BYTE $0xfa               // vmovupd    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20fa             // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40fa             // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60fa             // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x045cfdc5; BYTE $0xf9               // vsubpd    ymm0, ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c5cf5c5; WORD $0x20f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x545cedc5; WORD $0x40f9             // vsubpd    ymm2, ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c5ce5c5; WORD $0x60f9             // vsubpd    ymm3, ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_531
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_533:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_535
+
+LBB0_534:
+	LONG $0x0410fbc5; BYTE $0xf2   // vmovsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045cfbc5; BYTE $0xf1   // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_534
+
+LBB0_535:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_537
+
+LBB0_536:
+	LONG $0x0410fbc5; BYTE $0xf2               // vmovsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045cfbc5; BYTE $0xf1               // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x4410fbc5; WORD $0x08f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x445cfbc5; WORD $0x08f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x4410fbc5; WORD $0x10f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x445cfbc5; WORD $0x10f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x4410fbc5; WORD $0x18f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x445cfbc5; WORD $0x18f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_536
+	JMP  LBB0_537
+
+LBB0_441:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_446
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_446
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_444:
+	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
+	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
+	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
+	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
+	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
+	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_444
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_446:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_448
+
+LBB0_447:
+	LONG $0x321cb60f         // movzx    ebx, byte [rdx + rsi]
+	WORD $0x1c2a; BYTE $0x31 // sub    bl, byte [rcx + rsi]
+	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_447
+
+LBB0_448:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_537
+
+LBB0_449:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_449
+	JMP  LBB0_537
+
+LBB0_495:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_500
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_500
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_498:
+	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
+	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_498
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_500:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_502
+
+LBB0_501:
+	LONG $0xf21c8b48 // mov    rbx, qword [rdx + 8*rsi]
+	LONG $0xf11c2b48 // sub    rbx, qword [rcx + 8*rsi]
+	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_501
+
+LBB0_502:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_537
+
+LBB0_503:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_503
+	JMP  LBB0_537
+
+LBB0_453:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_458
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_458
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_456:
+	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
+	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_456
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_458:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_460
+
+LBB0_459:
+	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
+	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_459
+
+LBB0_460:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_537
+
+LBB0_461:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_461
+	JMP  LBB0_537
+
+LBB0_465:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_470
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_470
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_468:
+	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
+	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_468
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_470:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_472
+
+LBB0_471:
+	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
+	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_471
+
+LBB0_472:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_537
+
+LBB0_473:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_473
+	JMP  LBB0_537
+
+LBB0_507:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_512
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_512
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_510:
+	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
+	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_510
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_512:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_514
+
+LBB0_513:
+	LONG $0xf21c8b48 // mov    rbx, qword [rdx + 8*rsi]
+	LONG $0xf11c2b48 // sub    rbx, qword [rcx + 8*rsi]
+	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_513
+
+LBB0_514:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_537
+
+LBB0_515:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_515
+	JMP  LBB0_537
+
+LBB0_519:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_524
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_524
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_522:
+	LONG $0x0410fcc5; BYTE $0xba               // vmovups    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20ba             // vmovups    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40ba             // vmovups    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60ba             // vmovups    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x045cfcc5; BYTE $0xb9               // vsubps    ymm0, ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c5cf4c5; WORD $0x20b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x545cecc5; WORD $0x40b9             // vsubps    ymm2, ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c5ce4c5; WORD $0x60b9             // vsubps    ymm3, ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_522
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_524:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_526
+
+LBB0_525:
+	LONG $0x0410fac5; BYTE $0xb2   // vmovss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045cfac5; BYTE $0xb1   // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_525
+
+LBB0_526:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_537
+
+LBB0_527:
+	LONG $0x0410fac5; BYTE $0xb2               // vmovss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045cfac5; BYTE $0xb1               // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x4410fac5; WORD $0x04b2             // vmovss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x445cfac5; WORD $0x04b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x4410fac5; WORD $0x08b2             // vmovss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x445cfac5; WORD $0x08b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x4410fac5; WORD $0x0cb2             // vmovss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x445cfac5; WORD $0x0cb1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_527
+	JMP  LBB0_537
+
+LBB0_432:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_437
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_437
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_435:
+	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
+	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
+	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
+	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
+	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
+	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_435
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_437:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_439
+
+LBB0_438:
+	LONG $0x321cb60f         // movzx    ebx, byte [rdx + rsi]
+	WORD $0x1c2a; BYTE $0x31 // sub    bl, byte [rcx + rsi]
+	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_438
+
+LBB0_439:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_537
+
+LBB0_440:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_440
+	JMP  LBB0_537
+
+LBB0_486:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_491
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_491
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_489:
+	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
+	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_489
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_491:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_493
+
+LBB0_492:
+	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
+	WORD $0x1c2b; BYTE $0xb1 // sub    ebx, dword [rcx + 4*rsi]
+	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_492
+
+LBB0_493:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_537
+
+LBB0_494:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_494
+	JMP  LBB0_537
+
+LBB0_208:
+	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
+	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_213
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_213
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_211:
+	LONG $0x046ffec5; BYTE $0x81               // vmovdqu    ymm0, yword [rcx + 4*rax]
+	LONG $0x4c6ffec5; WORD $0x2081             // vmovdqu    ymm1, yword [rcx + 4*rax + 32]
+	LONG $0x546ffec5; WORD $0x4081             // vmovdqu    ymm2, yword [rcx + 4*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6081             // vmovdqu    ymm3, yword [rcx + 4*rax + 96]
+	LONG $0x04fefdc5; BYTE $0x82               // vpaddd    ymm0, ymm0, yword [rdx + 4*rax]
+	LONG $0x4cfef5c5; WORD $0x2082             // vpaddd    ymm1, ymm1, yword [rdx + 4*rax + 32]
+	LONG $0x54feedc5; WORD $0x4082             // vpaddd    ymm2, ymm2, yword [rdx + 4*rax + 64]
+	LONG $0x5cfee5c5; WORD $0x6082             // vpaddd    ymm3, ymm3, yword [rdx + 4*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x8004             // vmovdqu    yword [r8 + 4*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x804c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm3
+	LONG $0x20c08348                           // add    rax, 32
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_211
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JNE  LBB0_213
+	JMP  LBB0_271
+
+LBB0_262:
+	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
+	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_267
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_267
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_265:
+	LONG $0x0410fdc5; BYTE $0xc1               // vmovupd    ymm0, yword [rcx + 8*rax]
+	LONG $0x4c10fdc5; WORD $0x20c1             // vmovupd    ymm1, yword [rcx + 8*rax + 32]
+	LONG $0x5410fdc5; WORD $0x40c1             // vmovupd    ymm2, yword [rcx + 8*rax + 64]
+	LONG $0x5c10fdc5; WORD $0x60c1             // vmovupd    ymm3, yword [rcx + 8*rax + 96]
+	LONG $0x0458fdc5; BYTE $0xc2               // vaddpd    ymm0, ymm0, yword [rdx + 8*rax]
+	LONG $0x4c58f5c5; WORD $0x20c2             // vaddpd    ymm1, ymm1, yword [rdx + 8*rax + 32]
+	LONG $0x5458edc5; WORD $0x40c2             // vaddpd    ymm2, ymm2, yword [rdx + 8*rax + 64]
+	LONG $0x5c58e5c5; WORD $0x60c2             // vaddpd    ymm3, ymm3, yword [rdx + 8*rax + 96]
+	LONG $0x117dc1c4; WORD $0xc004             // vmovupd    yword [r8 + 8*rax], ymm0
+	LONG $0x117dc1c4; WORD $0xc04c; BYTE $0x20 // vmovupd    yword [r8 + 8*rax + 32], ymm1
+	LONG $0x117dc1c4; WORD $0xc054; BYTE $0x40 // vmovupd    yword [r8 + 8*rax + 64], ymm2
+	LONG $0x117dc1c4; WORD $0xc05c; BYTE $0x60 // vmovupd    yword [r8 + 8*rax + 96], ymm3
+	LONG $0x10c08348                           // add    rax, 16
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_265
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JNE  LBB0_267
+	JMP  LBB0_271
+
+LBB0_175:
+	LONG $0x18348d4b         // lea    rsi, [r8 + r11]
+	LONG $0x1a048d4a         // lea    rax, [rdx + r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x19048d4a         // lea    rax, [rcx + r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_180
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_180
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_178:
+	LONG $0x046ffec5; BYTE $0x01               // vmovdqu    ymm0, yword [rcx + rax]
+	LONG $0x4c6ffec5; WORD $0x2001             // vmovdqu    ymm1, yword [rcx + rax + 32]
+	LONG $0x546ffec5; WORD $0x4001             // vmovdqu    ymm2, yword [rcx + rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6001             // vmovdqu    ymm3, yword [rcx + rax + 96]
+	LONG $0x04fcfdc5; BYTE $0x02               // vpaddb    ymm0, ymm0, yword [rdx + rax]
+	LONG $0x4cfcf5c5; WORD $0x2002             // vpaddb    ymm1, ymm1, yword [rdx + rax + 32]
+	LONG $0x54fcedc5; WORD $0x4002             // vpaddb    ymm2, ymm2, yword [rdx + rax + 64]
+	LONG $0x5cfce5c5; WORD $0x6002             // vpaddb    ymm3, ymm3, yword [rdx + rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x0004             // vmovdqu    yword [r8 + rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x004c; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm3
+	LONG $0x80e88348                           // sub    rax, -128
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_178
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JNE  LBB0_180
+	JMP  LBB0_271
+
+LBB0_229:
+	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
+	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_234
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_234
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_232:
+	LONG $0x046ffec5; BYTE $0xc1               // vmovdqu    ymm0, yword [rcx + 8*rax]
+	LONG $0x4c6ffec5; WORD $0x20c1             // vmovdqu    ymm1, yword [rcx + 8*rax + 32]
+	LONG $0x546ffec5; WORD $0x40c1             // vmovdqu    ymm2, yword [rcx + 8*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x60c1             // vmovdqu    ymm3, yword [rcx + 8*rax + 96]
+	LONG $0x04d4fdc5; BYTE $0xc2               // vpaddq    ymm0, ymm0, yword [rdx + 8*rax]
+	LONG $0x4cd4f5c5; WORD $0x20c2             // vpaddq    ymm1, ymm1, yword [rdx + 8*rax + 32]
+	LONG $0x54d4edc5; WORD $0x40c2             // vpaddq    ymm2, ymm2, yword [rdx + 8*rax + 64]
+	LONG $0x5cd4e5c5; WORD $0x60c2             // vpaddq    ymm3, ymm3, yword [rdx + 8*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0xc004             // vmovdqu    yword [r8 + 8*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0xc04c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm3
+	LONG $0x10c08348                           // add    rax, 16
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_232
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JNE  LBB0_234
+	JMP  LBB0_271
+
+LBB0_187:
+	LONG $0x58348d4b         // lea    rsi, [r8 + 2*r11]
+	LONG $0x5a048d4a         // lea    rax, [rdx + 2*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x59048d4a         // lea    rax, [rcx + 2*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_192
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_192
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_190:
+	LONG $0x046ffec5; BYTE $0x41               // vmovdqu    ymm0, yword [rcx + 2*rax]
+	LONG $0x4c6ffec5; WORD $0x2041             // vmovdqu    ymm1, yword [rcx + 2*rax + 32]
+	LONG $0x546ffec5; WORD $0x4041             // vmovdqu    ymm2, yword [rcx + 2*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6041             // vmovdqu    ymm3, yword [rcx + 2*rax + 96]
+	LONG $0x04fdfdc5; BYTE $0x42               // vpaddw    ymm0, ymm0, yword [rdx + 2*rax]
+	LONG $0x4cfdf5c5; WORD $0x2042             // vpaddw    ymm1, ymm1, yword [rdx + 2*rax + 32]
+	LONG $0x54fdedc5; WORD $0x4042             // vpaddw    ymm2, ymm2, yword [rdx + 2*rax + 64]
+	LONG $0x5cfde5c5; WORD $0x6042             // vpaddw    ymm3, ymm3, yword [rdx + 2*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x4004             // vmovdqu    yword [r8 + 2*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x404c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x4054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x405c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rax + 96], ymm3
+	LONG $0x40c08348                           // add    rax, 64
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_190
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JNE  LBB0_192
+	JMP  LBB0_271
+
+LBB0_199:
+	LONG $0x58348d4b         // lea    rsi, [r8 + 2*r11]
+	LONG $0x5a048d4a         // lea    rax, [rdx + 2*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x59048d4a         // lea    rax, [rcx + 2*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_204
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_204
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_202:
+	LONG $0x046ffec5; BYTE $0x41               // vmovdqu    ymm0, yword [rcx + 2*rax]
+	LONG $0x4c6ffec5; WORD $0x2041             // vmovdqu    ymm1, yword [rcx + 2*rax + 32]
+	LONG $0x546ffec5; WORD $0x4041             // vmovdqu    ymm2, yword [rcx + 2*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6041             // vmovdqu    ymm3, yword [rcx + 2*rax + 96]
+	LONG $0x04fdfdc5; BYTE $0x42               // vpaddw    ymm0, ymm0, yword [rdx + 2*rax]
+	LONG $0x4cfdf5c5; WORD $0x2042             // vpaddw    ymm1, ymm1, yword [rdx + 2*rax + 32]
+	LONG $0x54fdedc5; WORD $0x4042             // vpaddw    ymm2, ymm2, yword [rdx + 2*rax + 64]
+	LONG $0x5cfde5c5; WORD $0x6042             // vpaddw    ymm3, ymm3, yword [rdx + 2*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x4004             // vmovdqu    yword [r8 + 2*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x404c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x4054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x405c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rax + 96], ymm3
+	LONG $0x40c08348                           // add    rax, 64
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_202
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JNE  LBB0_204
+	JMP  LBB0_271
+
+LBB0_241:
+	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
+	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_246
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_246
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_244:
+	LONG $0x046ffec5; BYTE $0xc1               // vmovdqu    ymm0, yword [rcx + 8*rax]
+	LONG $0x4c6ffec5; WORD $0x20c1             // vmovdqu    ymm1, yword [rcx + 8*rax + 32]
+	LONG $0x546ffec5; WORD $0x40c1             // vmovdqu    ymm2, yword [rcx + 8*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x60c1             // vmovdqu    ymm3, yword [rcx + 8*rax + 96]
+	LONG $0x04d4fdc5; BYTE $0xc2               // vpaddq    ymm0, ymm0, yword [rdx + 8*rax]
+	LONG $0x4cd4f5c5; WORD $0x20c2             // vpaddq    ymm1, ymm1, yword [rdx + 8*rax + 32]
+	LONG $0x54d4edc5; WORD $0x40c2             // vpaddq    ymm2, ymm2, yword [rdx + 8*rax + 64]
+	LONG $0x5cd4e5c5; WORD $0x60c2             // vpaddq    ymm3, ymm3, yword [rdx + 8*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0xc004             // vmovdqu    yword [r8 + 8*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0xc04c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm3
+	LONG $0x10c08348                           // add    rax, 16
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_244
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JNE  LBB0_246
+	JMP  LBB0_271
+
+LBB0_253:
+	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
+	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_258
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_258
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_256:
+	LONG $0x0410fcc5; BYTE $0x81               // vmovups    ymm0, yword [rcx + 4*rax]
+	LONG $0x4c10fcc5; WORD $0x2081             // vmovups    ymm1, yword [rcx + 4*rax + 32]
+	LONG $0x5410fcc5; WORD $0x4081             // vmovups    ymm2, yword [rcx + 4*rax + 64]
+	LONG $0x5c10fcc5; WORD $0x6081             // vmovups    ymm3, yword [rcx + 4*rax + 96]
+	LONG $0x0458fcc5; BYTE $0x82               // vaddps    ymm0, ymm0, yword [rdx + 4*rax]
+	LONG $0x4c58f4c5; WORD $0x2082             // vaddps    ymm1, ymm1, yword [rdx + 4*rax + 32]
+	LONG $0x5458ecc5; WORD $0x4082             // vaddps    ymm2, ymm2, yword [rdx + 4*rax + 64]
+	LONG $0x5c58e4c5; WORD $0x6082             // vaddps    ymm3, ymm3, yword [rdx + 4*rax + 96]
+	LONG $0x117cc1c4; WORD $0x8004             // vmovups    yword [r8 + 4*rax], ymm0
+	LONG $0x117cc1c4; WORD $0x804c; BYTE $0x20 // vmovups    yword [r8 + 4*rax + 32], ymm1
+	LONG $0x117cc1c4; WORD $0x8054; BYTE $0x40 // vmovups    yword [r8 + 4*rax + 64], ymm2
+	LONG $0x117cc1c4; WORD $0x805c; BYTE $0x60 // vmovups    yword [r8 + 4*rax + 96], ymm3
+	LONG $0x20c08348                           // add    rax, 32
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_256
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JNE  LBB0_258
+	JMP  LBB0_271
+
+LBB0_166:
+	LONG $0x18348d4b         // lea    rsi, [r8 + r11]
+	LONG $0x1a048d4a         // lea    rax, [rdx + r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x19048d4a         // lea    rax, [rcx + r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_171
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_171
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_169:
+	LONG $0x046ffec5; BYTE $0x01               // vmovdqu    ymm0, yword [rcx + rax]
+	LONG $0x4c6ffec5; WORD $0x2001             // vmovdqu    ymm1, yword [rcx + rax + 32]
+	LONG $0x546ffec5; WORD $0x4001             // vmovdqu    ymm2, yword [rcx + rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6001             // vmovdqu    ymm3, yword [rcx + rax + 96]
+	LONG $0x04fcfdc5; BYTE $0x02               // vpaddb    ymm0, ymm0, yword [rdx + rax]
+	LONG $0x4cfcf5c5; WORD $0x2002             // vpaddb    ymm1, ymm1, yword [rdx + rax + 32]
+	LONG $0x54fcedc5; WORD $0x4002             // vpaddb    ymm2, ymm2, yword [rdx + rax + 64]
+	LONG $0x5cfce5c5; WORD $0x6002             // vpaddb    ymm3, ymm3, yword [rdx + rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x0004             // vmovdqu    yword [r8 + rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x004c; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm3
+	LONG $0x80e88348                           // sub    rax, -128
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_169
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JNE  LBB0_171
+	JMP  LBB0_271
+
+LBB0_220:
+	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
+	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_225
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_225
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_223:
+	LONG $0x046ffec5; BYTE $0x81               // vmovdqu    ymm0, yword [rcx + 4*rax]
+	LONG $0x4c6ffec5; WORD $0x2081             // vmovdqu    ymm1, yword [rcx + 4*rax + 32]
+	LONG $0x546ffec5; WORD $0x4081             // vmovdqu    ymm2, yword [rcx + 4*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6081             // vmovdqu    ymm3, yword [rcx + 4*rax + 96]
+	LONG $0x04fefdc5; BYTE $0x82               // vpaddd    ymm0, ymm0, yword [rdx + 4*rax]
+	LONG $0x4cfef5c5; WORD $0x2082             // vpaddd    ymm1, ymm1, yword [rdx + 4*rax + 32]
+	LONG $0x54feedc5; WORD $0x4082             // vpaddd    ymm2, ymm2, yword [rdx + 4*rax + 64]
+	LONG $0x5cfee5c5; WORD $0x6082             // vpaddd    ymm3, ymm3, yword [rdx + 4*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x8004             // vmovdqu    yword [r8 + 4*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x804c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm3
+	LONG $0x20c08348                           // add    rax, 32
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_223
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JNE  LBB0_225
+
+LBB0_271:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_284
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_273
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_317
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_329
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_404
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_341
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_346
+
+LBB0_284:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_285
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_371
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_383
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_404
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_395
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_400
+
+LBB0_273:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB0_296
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB0_404
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb                   // mov    r11d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_308
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_313
+
+LBB0_285:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_350
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_404
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_362
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_367
+
+LBB0_317:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_320
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_325
+
+LBB0_329:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_332
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_337
+
+LBB0_371:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_374
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_379
+
+LBB0_383:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_386
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_391
+
+LBB0_296:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb                   // mov    r11d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_299
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_304
+
+LBB0_350:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_353
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_358
+
+LBB0_537:
+	VZEROUPPER
+	RET
+
+LBB0_341:
+	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
+	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_346
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_346
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_344:
+	LONG $0x046ffec5; BYTE $0x82               // vmovdqu    ymm0, yword [rdx + 4*rax]
+	LONG $0x4c6ffec5; WORD $0x2082             // vmovdqu    ymm1, yword [rdx + 4*rax + 32]
+	LONG $0x546ffec5; WORD $0x4082             // vmovdqu    ymm2, yword [rdx + 4*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6082             // vmovdqu    ymm3, yword [rdx + 4*rax + 96]
+	LONG $0x04fafdc5; BYTE $0x81               // vpsubd    ymm0, ymm0, yword [rcx + 4*rax]
+	LONG $0x4cfaf5c5; WORD $0x2081             // vpsubd    ymm1, ymm1, yword [rcx + 4*rax + 32]
+	LONG $0x54faedc5; WORD $0x4081             // vpsubd    ymm2, ymm2, yword [rcx + 4*rax + 64]
+	LONG $0x5cfae5c5; WORD $0x6081             // vpsubd    ymm3, ymm3, yword [rcx + 4*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x8004             // vmovdqu    yword [r8 + 4*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x804c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm3
+	LONG $0x20c08348                           // add    rax, 32
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_344
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_404
+
+LBB0_346:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_348
+
+LBB0_347:
+	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
+	WORD $0x1c2b; BYTE $0xb1 // sub    ebx, dword [rcx + 4*rsi]
+	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_347
+
+LBB0_348:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_404
+
+LBB0_349:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_349
+	JMP  LBB0_404
+
+LBB0_395:
+	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
+	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_400
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_400
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_398:
+	LONG $0x0410fdc5; BYTE $0xc2               // vmovupd    ymm0, yword [rdx + 8*rax]
+	LONG $0x4c10fdc5; WORD $0x20c2             // vmovupd    ymm1, yword [rdx + 8*rax + 32]
+	LONG $0x5410fdc5; WORD $0x40c2             // vmovupd    ymm2, yword [rdx + 8*rax + 64]
+	LONG $0x5c10fdc5; WORD $0x60c2             // vmovupd    ymm3, yword [rdx + 8*rax + 96]
+	LONG $0x045cfdc5; BYTE $0xc1               // vsubpd    ymm0, ymm0, yword [rcx + 8*rax]
+	LONG $0x4c5cf5c5; WORD $0x20c1             // vsubpd    ymm1, ymm1, yword [rcx + 8*rax + 32]
+	LONG $0x545cedc5; WORD $0x40c1             // vsubpd    ymm2, ymm2, yword [rcx + 8*rax + 64]
+	LONG $0x5c5ce5c5; WORD $0x60c1             // vsubpd    ymm3, ymm3, yword [rcx + 8*rax + 96]
+	LONG $0x117dc1c4; WORD $0xc004             // vmovupd    yword [r8 + 8*rax], ymm0
+	LONG $0x117dc1c4; WORD $0xc04c; BYTE $0x20 // vmovupd    yword [r8 + 8*rax + 32], ymm1
+	LONG $0x117dc1c4; WORD $0xc054; BYTE $0x40 // vmovupd    yword [r8 + 8*rax + 64], ymm2
+	LONG $0x117dc1c4; WORD $0xc05c; BYTE $0x60 // vmovupd    yword [r8 + 8*rax + 96], ymm3
+	LONG $0x10c08348                           // add    rax, 16
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_398
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_404
+
+LBB0_400:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_402
+
+LBB0_401:
+	LONG $0x0410fbc5; BYTE $0xf2   // vmovsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045cfbc5; BYTE $0xf1   // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_401
+
+LBB0_402:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_404
+
+LBB0_403:
+	LONG $0x0410fbc5; BYTE $0xf2               // vmovsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045cfbc5; BYTE $0xf1               // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x4410fbc5; WORD $0x08f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x445cfbc5; WORD $0x08f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x4410fbc5; WORD $0x10f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x445cfbc5; WORD $0x10f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x4410fbc5; WORD $0x18f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x445cfbc5; WORD $0x18f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB0_403
+	JMP  LBB0_404
+
+LBB0_308:
+	LONG $0x18348d4b         // lea    rsi, [r8 + r11]
+	LONG $0x1a048d4a         // lea    rax, [rdx + r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x19048d4a         // lea    rax, [rcx + r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_313
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_313
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_311:
+	LONG $0x046ffec5; BYTE $0x02               // vmovdqu    ymm0, yword [rdx + rax]
+	LONG $0x4c6ffec5; WORD $0x2002             // vmovdqu    ymm1, yword [rdx + rax + 32]
+	LONG $0x546ffec5; WORD $0x4002             // vmovdqu    ymm2, yword [rdx + rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6002             // vmovdqu    ymm3, yword [rdx + rax + 96]
+	LONG $0x04f8fdc5; BYTE $0x01               // vpsubb    ymm0, ymm0, yword [rcx + rax]
+	LONG $0x4cf8f5c5; WORD $0x2001             // vpsubb    ymm1, ymm1, yword [rcx + rax + 32]
+	LONG $0x54f8edc5; WORD $0x4001             // vpsubb    ymm2, ymm2, yword [rcx + rax + 64]
+	LONG $0x5cf8e5c5; WORD $0x6001             // vpsubb    ymm3, ymm3, yword [rcx + rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x0004             // vmovdqu    yword [r8 + rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x004c; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm3
+	LONG $0x80e88348                           // sub    rax, -128
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_311
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_404
+
+LBB0_313:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_315
+
+LBB0_314:
+	LONG $0x321cb60f         // movzx    ebx, byte [rdx + rsi]
+	WORD $0x1c2a; BYTE $0x31 // sub    bl, byte [rcx + rsi]
+	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_314
+
+LBB0_315:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_404
+
+LBB0_316:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_316
+	JMP  LBB0_404
+
+LBB0_362:
+	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
+	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_367
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_367
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_365:
+	LONG $0x046ffec5; BYTE $0xc2               // vmovdqu    ymm0, yword [rdx + 8*rax]
+	LONG $0x4c6ffec5; WORD $0x20c2             // vmovdqu    ymm1, yword [rdx + 8*rax + 32]
+	LONG $0x546ffec5; WORD $0x40c2             // vmovdqu    ymm2, yword [rdx + 8*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x60c2             // vmovdqu    ymm3, yword [rdx + 8*rax + 96]
+	LONG $0x04fbfdc5; BYTE $0xc1               // vpsubq    ymm0, ymm0, yword [rcx + 8*rax]
+	LONG $0x4cfbf5c5; WORD $0x20c1             // vpsubq    ymm1, ymm1, yword [rcx + 8*rax + 32]
+	LONG $0x54fbedc5; WORD $0x40c1             // vpsubq    ymm2, ymm2, yword [rcx + 8*rax + 64]
+	LONG $0x5cfbe5c5; WORD $0x60c1             // vpsubq    ymm3, ymm3, yword [rcx + 8*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0xc004             // vmovdqu    yword [r8 + 8*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0xc04c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm3
+	LONG $0x10c08348                           // add    rax, 16
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_365
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_404
+
+LBB0_367:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_369
+
+LBB0_368:
+	LONG $0xf21c8b48 // mov    rbx, qword [rdx + 8*rsi]
+	LONG $0xf11c2b48 // sub    rbx, qword [rcx + 8*rsi]
+	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_368
+
+LBB0_369:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_404
+
+LBB0_370:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_370
+	JMP  LBB0_404
+
+LBB0_320:
+	LONG $0x58348d4b         // lea    rsi, [r8 + 2*r11]
+	LONG $0x5a048d4a         // lea    rax, [rdx + 2*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x59048d4a         // lea    rax, [rcx + 2*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_325
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_325
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_323:
+	LONG $0x046ffec5; BYTE $0x42               // vmovdqu    ymm0, yword [rdx + 2*rax]
+	LONG $0x4c6ffec5; WORD $0x2042             // vmovdqu    ymm1, yword [rdx + 2*rax + 32]
+	LONG $0x546ffec5; WORD $0x4042             // vmovdqu    ymm2, yword [rdx + 2*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6042             // vmovdqu    ymm3, yword [rdx + 2*rax + 96]
+	LONG $0x04f9fdc5; BYTE $0x41               // vpsubw    ymm0, ymm0, yword [rcx + 2*rax]
+	LONG $0x4cf9f5c5; WORD $0x2041             // vpsubw    ymm1, ymm1, yword [rcx + 2*rax + 32]
+	LONG $0x54f9edc5; WORD $0x4041             // vpsubw    ymm2, ymm2, yword [rcx + 2*rax + 64]
+	LONG $0x5cf9e5c5; WORD $0x6041             // vpsubw    ymm3, ymm3, yword [rcx + 2*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x4004             // vmovdqu    yword [r8 + 2*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x404c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x4054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x405c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rax + 96], ymm3
+	LONG $0x40c08348                           // add    rax, 64
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_323
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_404
+
+LBB0_325:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_327
+
+LBB0_326:
+	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
+	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_326
+
+LBB0_327:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_404
+
+LBB0_328:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
+	JNE  LBB0_328
+	JMP  LBB0_404
+
+LBB0_332:
+	LONG $0x58348d4b         // lea    rsi, [r8 + 2*r11]
+	LONG $0x5a048d4a         // lea    rax, [rdx + 2*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x59048d4a         // lea    rax, [rcx + 2*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_337
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_337
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_335:
+	LONG $0x046ffec5; BYTE $0x42               // vmovdqu    ymm0, yword [rdx + 2*rax]
+	LONG $0x4c6ffec5; WORD $0x2042             // vmovdqu    ymm1, yword [rdx + 2*rax + 32]
+	LONG $0x546ffec5; WORD $0x4042             // vmovdqu    ymm2, yword [rdx + 2*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6042             // vmovdqu    ymm3, yword [rdx + 2*rax + 96]
+	LONG $0x04f9fdc5; BYTE $0x41               // vpsubw    ymm0, ymm0, yword [rcx + 2*rax]
+	LONG $0x4cf9f5c5; WORD $0x2041             // vpsubw    ymm1, ymm1, yword [rcx + 2*rax + 32]
+	LONG $0x54f9edc5; WORD $0x4041             // vpsubw    ymm2, ymm2, yword [rcx + 2*rax + 64]
+	LONG $0x5cf9e5c5; WORD $0x6041             // vpsubw    ymm3, ymm3, yword [rcx + 2*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x4004             // vmovdqu    yword [r8 + 2*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x404c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x4054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x405c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rax + 96], ymm3
+	LONG $0x40c08348                           // add    rax, 64
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_335
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_404
+
+LBB0_337:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_339
+
+LBB0_338:
+	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
+	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_338
+
+LBB0_339:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_404
+
+LBB0_340:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
+	JNE  LBB0_340
+	JMP  LBB0_404
+
+LBB0_374:
+	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
+	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_379
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_379
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_377:
+	LONG $0x046ffec5; BYTE $0xc2               // vmovdqu    ymm0, yword [rdx + 8*rax]
+	LONG $0x4c6ffec5; WORD $0x20c2             // vmovdqu    ymm1, yword [rdx + 8*rax + 32]
+	LONG $0x546ffec5; WORD $0x40c2             // vmovdqu    ymm2, yword [rdx + 8*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x60c2             // vmovdqu    ymm3, yword [rdx + 8*rax + 96]
+	LONG $0x04fbfdc5; BYTE $0xc1               // vpsubq    ymm0, ymm0, yword [rcx + 8*rax]
+	LONG $0x4cfbf5c5; WORD $0x20c1             // vpsubq    ymm1, ymm1, yword [rcx + 8*rax + 32]
+	LONG $0x54fbedc5; WORD $0x40c1             // vpsubq    ymm2, ymm2, yword [rcx + 8*rax + 64]
+	LONG $0x5cfbe5c5; WORD $0x60c1             // vpsubq    ymm3, ymm3, yword [rcx + 8*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0xc004             // vmovdqu    yword [r8 + 8*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0xc04c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm3
+	LONG $0x10c08348                           // add    rax, 16
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_377
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_404
+
+LBB0_379:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_381
+
+LBB0_380:
+	LONG $0xf21c8b48 // mov    rbx, qword [rdx + 8*rsi]
+	LONG $0xf11c2b48 // sub    rbx, qword [rcx + 8*rsi]
+	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_380
+
+LBB0_381:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_404
+
+LBB0_382:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_382
+	JMP  LBB0_404
+
+LBB0_386:
+	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
+	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_391
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_391
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_389:
+	LONG $0x0410fcc5; BYTE $0x82               // vmovups    ymm0, yword [rdx + 4*rax]
+	LONG $0x4c10fcc5; WORD $0x2082             // vmovups    ymm1, yword [rdx + 4*rax + 32]
+	LONG $0x5410fcc5; WORD $0x4082             // vmovups    ymm2, yword [rdx + 4*rax + 64]
+	LONG $0x5c10fcc5; WORD $0x6082             // vmovups    ymm3, yword [rdx + 4*rax + 96]
+	LONG $0x045cfcc5; BYTE $0x81               // vsubps    ymm0, ymm0, yword [rcx + 4*rax]
+	LONG $0x4c5cf4c5; WORD $0x2081             // vsubps    ymm1, ymm1, yword [rcx + 4*rax + 32]
+	LONG $0x545cecc5; WORD $0x4081             // vsubps    ymm2, ymm2, yword [rcx + 4*rax + 64]
+	LONG $0x5c5ce4c5; WORD $0x6081             // vsubps    ymm3, ymm3, yword [rcx + 4*rax + 96]
+	LONG $0x117cc1c4; WORD $0x8004             // vmovups    yword [r8 + 4*rax], ymm0
+	LONG $0x117cc1c4; WORD $0x804c; BYTE $0x20 // vmovups    yword [r8 + 4*rax + 32], ymm1
+	LONG $0x117cc1c4; WORD $0x8054; BYTE $0x40 // vmovups    yword [r8 + 4*rax + 64], ymm2
+	LONG $0x117cc1c4; WORD $0x805c; BYTE $0x60 // vmovups    yword [r8 + 4*rax + 96], ymm3
+	LONG $0x20c08348                           // add    rax, 32
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_389
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_404
+
+LBB0_391:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_393
+
+LBB0_392:
+	LONG $0x0410fac5; BYTE $0xb2   // vmovss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045cfac5; BYTE $0xb1   // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_392
+
+LBB0_393:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_404
+
+LBB0_394:
+	LONG $0x0410fac5; BYTE $0xb2               // vmovss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045cfac5; BYTE $0xb1               // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x4410fac5; WORD $0x04b2             // vmovss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x445cfac5; WORD $0x04b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x4410fac5; WORD $0x08b2             // vmovss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x445cfac5; WORD $0x08b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x4410fac5; WORD $0x0cb2             // vmovss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x445cfac5; WORD $0x0cb1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB0_394
+	JMP  LBB0_404
+
+LBB0_299:
+	LONG $0x18348d4b         // lea    rsi, [r8 + r11]
+	LONG $0x1a048d4a         // lea    rax, [rdx + r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x19048d4a         // lea    rax, [rcx + r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_304
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_304
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_302:
+	LONG $0x046ffec5; BYTE $0x02               // vmovdqu    ymm0, yword [rdx + rax]
+	LONG $0x4c6ffec5; WORD $0x2002             // vmovdqu    ymm1, yword [rdx + rax + 32]
+	LONG $0x546ffec5; WORD $0x4002             // vmovdqu    ymm2, yword [rdx + rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6002             // vmovdqu    ymm3, yword [rdx + rax + 96]
+	LONG $0x04f8fdc5; BYTE $0x01               // vpsubb    ymm0, ymm0, yword [rcx + rax]
+	LONG $0x4cf8f5c5; WORD $0x2001             // vpsubb    ymm1, ymm1, yword [rcx + rax + 32]
+	LONG $0x54f8edc5; WORD $0x4001             // vpsubb    ymm2, ymm2, yword [rcx + rax + 64]
+	LONG $0x5cf8e5c5; WORD $0x6001             // vpsubb    ymm3, ymm3, yword [rcx + rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x0004             // vmovdqu    yword [r8 + rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x004c; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm3
+	LONG $0x80e88348                           // sub    rax, -128
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_302
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_404
+
+LBB0_304:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_306
+
+LBB0_305:
+	LONG $0x321cb60f         // movzx    ebx, byte [rdx + rsi]
+	WORD $0x1c2a; BYTE $0x31 // sub    bl, byte [rcx + rsi]
+	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_305
+
+LBB0_306:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_404
+
+LBB0_307:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_307
+	JMP  LBB0_404
+
+LBB0_353:
+	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
+	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_358
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_358
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_356:
+	LONG $0x046ffec5; BYTE $0x82               // vmovdqu    ymm0, yword [rdx + 4*rax]
+	LONG $0x4c6ffec5; WORD $0x2082             // vmovdqu    ymm1, yword [rdx + 4*rax + 32]
+	LONG $0x546ffec5; WORD $0x4082             // vmovdqu    ymm2, yword [rdx + 4*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6082             // vmovdqu    ymm3, yword [rdx + 4*rax + 96]
+	LONG $0x04fafdc5; BYTE $0x81               // vpsubd    ymm0, ymm0, yword [rcx + 4*rax]
+	LONG $0x4cfaf5c5; WORD $0x2081             // vpsubd    ymm1, ymm1, yword [rcx + 4*rax + 32]
+	LONG $0x54faedc5; WORD $0x4081             // vpsubd    ymm2, ymm2, yword [rcx + 4*rax + 64]
+	LONG $0x5cfae5c5; WORD $0x6081             // vpsubd    ymm3, ymm3, yword [rcx + 4*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x8004             // vmovdqu    yword [r8 + 4*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x804c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm3
+	LONG $0x20c08348                           // add    rax, 32
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_356
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_404
+
+LBB0_358:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_360
+
+LBB0_359:
+	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
+	WORD $0x1c2b; BYTE $0xb1 // sub    ebx, dword [rcx + 4*rsi]
+	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_359
+
+LBB0_360:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_404
+
+LBB0_361:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_361
+	JMP  LBB0_404
+
+LBB0_75:
+	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
+	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_80
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_80
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_78:
+	LONG $0x046ffec5; BYTE $0x81               // vmovdqu    ymm0, yword [rcx + 4*rax]
+	LONG $0x4c6ffec5; WORD $0x2081             // vmovdqu    ymm1, yword [rcx + 4*rax + 32]
+	LONG $0x546ffec5; WORD $0x4081             // vmovdqu    ymm2, yword [rcx + 4*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6081             // vmovdqu    ymm3, yword [rcx + 4*rax + 96]
+	LONG $0x04fefdc5; BYTE $0x82               // vpaddd    ymm0, ymm0, yword [rdx + 4*rax]
+	LONG $0x4cfef5c5; WORD $0x2082             // vpaddd    ymm1, ymm1, yword [rdx + 4*rax + 32]
+	LONG $0x54feedc5; WORD $0x4082             // vpaddd    ymm2, ymm2, yword [rdx + 4*rax + 64]
+	LONG $0x5cfee5c5; WORD $0x6082             // vpaddd    ymm3, ymm3, yword [rdx + 4*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x8004             // vmovdqu    yword [r8 + 4*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x804c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm3
+	LONG $0x20c08348                           // add    rax, 32
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_78
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_138
+
+LBB0_80:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_82
+
+LBB0_81:
+	WORD $0x1c8b; BYTE $0xb1 // mov    ebx, dword [rcx + 4*rsi]
+	WORD $0x1c03; BYTE $0xb2 // add    ebx, dword [rdx + 4*rsi]
+	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_81
+
+LBB0_82:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_138
+
+LBB0_83:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_83
+	JMP  LBB0_138
+
+LBB0_129:
+	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
+	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_134
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_134
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_132:
+	LONG $0x0410fdc5; BYTE $0xc1               // vmovupd    ymm0, yword [rcx + 8*rax]
+	LONG $0x4c10fdc5; WORD $0x20c1             // vmovupd    ymm1, yword [rcx + 8*rax + 32]
+	LONG $0x5410fdc5; WORD $0x40c1             // vmovupd    ymm2, yword [rcx + 8*rax + 64]
+	LONG $0x5c10fdc5; WORD $0x60c1             // vmovupd    ymm3, yword [rcx + 8*rax + 96]
+	LONG $0x0458fdc5; BYTE $0xc2               // vaddpd    ymm0, ymm0, yword [rdx + 8*rax]
+	LONG $0x4c58f5c5; WORD $0x20c2             // vaddpd    ymm1, ymm1, yword [rdx + 8*rax + 32]
+	LONG $0x5458edc5; WORD $0x40c2             // vaddpd    ymm2, ymm2, yword [rdx + 8*rax + 64]
+	LONG $0x5c58e5c5; WORD $0x60c2             // vaddpd    ymm3, ymm3, yword [rdx + 8*rax + 96]
+	LONG $0x117dc1c4; WORD $0xc004             // vmovupd    yword [r8 + 8*rax], ymm0
+	LONG $0x117dc1c4; WORD $0xc04c; BYTE $0x20 // vmovupd    yword [r8 + 8*rax + 32], ymm1
+	LONG $0x117dc1c4; WORD $0xc054; BYTE $0x40 // vmovupd    yword [r8 + 8*rax + 64], ymm2
+	LONG $0x117dc1c4; WORD $0xc05c; BYTE $0x60 // vmovupd    yword [r8 + 8*rax + 96], ymm3
+	LONG $0x10c08348                           // add    rax, 16
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_132
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_138
+
+LBB0_134:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_136
+
+LBB0_135:
+	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0458fbc5; BYTE $0xf2   // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_135
+
+LBB0_136:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_138
+
+LBB0_137:
+	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0458fbc5; BYTE $0xf2               // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x4458fbc5; WORD $0x08f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x4458fbc5; WORD $0x10f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x4458fbc5; WORD $0x18f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB0_137
+	JMP  LBB0_138
+
+LBB0_42:
+	LONG $0x18348d4b         // lea    rsi, [r8 + r11]
+	LONG $0x1a048d4a         // lea    rax, [rdx + r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x19048d4a         // lea    rax, [rcx + r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_47
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_47
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_45:
+	LONG $0x046ffec5; BYTE $0x01               // vmovdqu    ymm0, yword [rcx + rax]
+	LONG $0x4c6ffec5; WORD $0x2001             // vmovdqu    ymm1, yword [rcx + rax + 32]
+	LONG $0x546ffec5; WORD $0x4001             // vmovdqu    ymm2, yword [rcx + rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6001             // vmovdqu    ymm3, yword [rcx + rax + 96]
+	LONG $0x04fcfdc5; BYTE $0x02               // vpaddb    ymm0, ymm0, yword [rdx + rax]
+	LONG $0x4cfcf5c5; WORD $0x2002             // vpaddb    ymm1, ymm1, yword [rdx + rax + 32]
+	LONG $0x54fcedc5; WORD $0x4002             // vpaddb    ymm2, ymm2, yword [rdx + rax + 64]
+	LONG $0x5cfce5c5; WORD $0x6002             // vpaddb    ymm3, ymm3, yword [rdx + rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x0004             // vmovdqu    yword [r8 + rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x004c; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm3
+	LONG $0x80e88348                           // sub    rax, -128
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_45
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_138
+
+LBB0_47:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_49
+
+LBB0_48:
+	LONG $0x311cb60f         // movzx    ebx, byte [rcx + rsi]
+	WORD $0x1c02; BYTE $0x32 // add    bl, byte [rdx + rsi]
+	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_48
+
+LBB0_49:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_138
+
+LBB0_50:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_50
+	JMP  LBB0_138
+
+LBB0_96:
+	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
+	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_101
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_101
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_99:
+	LONG $0x046ffec5; BYTE $0xc1               // vmovdqu    ymm0, yword [rcx + 8*rax]
+	LONG $0x4c6ffec5; WORD $0x20c1             // vmovdqu    ymm1, yword [rcx + 8*rax + 32]
+	LONG $0x546ffec5; WORD $0x40c1             // vmovdqu    ymm2, yword [rcx + 8*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x60c1             // vmovdqu    ymm3, yword [rcx + 8*rax + 96]
+	LONG $0x04d4fdc5; BYTE $0xc2               // vpaddq    ymm0, ymm0, yword [rdx + 8*rax]
+	LONG $0x4cd4f5c5; WORD $0x20c2             // vpaddq    ymm1, ymm1, yword [rdx + 8*rax + 32]
+	LONG $0x54d4edc5; WORD $0x40c2             // vpaddq    ymm2, ymm2, yword [rdx + 8*rax + 64]
+	LONG $0x5cd4e5c5; WORD $0x60c2             // vpaddq    ymm3, ymm3, yword [rdx + 8*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0xc004             // vmovdqu    yword [r8 + 8*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0xc04c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm3
+	LONG $0x10c08348                           // add    rax, 16
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_99
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_138
+
+LBB0_101:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_103
+
+LBB0_102:
+	LONG $0xf11c8b48 // mov    rbx, qword [rcx + 8*rsi]
+	LONG $0xf21c0348 // add    rbx, qword [rdx + 8*rsi]
+	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_102
+
+LBB0_103:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_138
+
+LBB0_104:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_104
+	JMP  LBB0_138
+
+LBB0_54:
+	LONG $0x58348d4b         // lea    rsi, [r8 + 2*r11]
+	LONG $0x5a048d4a         // lea    rax, [rdx + 2*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x59048d4a         // lea    rax, [rcx + 2*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_59
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_59
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_57:
+	LONG $0x046ffec5; BYTE $0x41               // vmovdqu    ymm0, yword [rcx + 2*rax]
+	LONG $0x4c6ffec5; WORD $0x2041             // vmovdqu    ymm1, yword [rcx + 2*rax + 32]
+	LONG $0x546ffec5; WORD $0x4041             // vmovdqu    ymm2, yword [rcx + 2*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6041             // vmovdqu    ymm3, yword [rcx + 2*rax + 96]
+	LONG $0x04fdfdc5; BYTE $0x42               // vpaddw    ymm0, ymm0, yword [rdx + 2*rax]
+	LONG $0x4cfdf5c5; WORD $0x2042             // vpaddw    ymm1, ymm1, yword [rdx + 2*rax + 32]
+	LONG $0x54fdedc5; WORD $0x4042             // vpaddw    ymm2, ymm2, yword [rdx + 2*rax + 64]
+	LONG $0x5cfde5c5; WORD $0x6042             // vpaddw    ymm3, ymm3, yword [rdx + 2*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x4004             // vmovdqu    yword [r8 + 2*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x404c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x4054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x405c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rax + 96], ymm3
+	LONG $0x40c08348                           // add    rax, 64
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_57
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_138
+
+LBB0_59:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_61
+
+LBB0_60:
+	LONG $0x711cb70f             // movzx    ebx, word [rcx + 2*rsi]
+	LONG $0x721c0366             // add    bx, word [rdx + 2*rsi]
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_60
+
+LBB0_61:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_138
+
+LBB0_62:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
+	JNE  LBB0_62
+	JMP  LBB0_138
+
+LBB0_66:
+	LONG $0x58348d4b         // lea    rsi, [r8 + 2*r11]
+	LONG $0x5a048d4a         // lea    rax, [rdx + 2*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x59048d4a         // lea    rax, [rcx + 2*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_71
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_71
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_69:
+	LONG $0x046ffec5; BYTE $0x41               // vmovdqu    ymm0, yword [rcx + 2*rax]
+	LONG $0x4c6ffec5; WORD $0x2041             // vmovdqu    ymm1, yword [rcx + 2*rax + 32]
+	LONG $0x546ffec5; WORD $0x4041             // vmovdqu    ymm2, yword [rcx + 2*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6041             // vmovdqu    ymm3, yword [rcx + 2*rax + 96]
+	LONG $0x04fdfdc5; BYTE $0x42               // vpaddw    ymm0, ymm0, yword [rdx + 2*rax]
+	LONG $0x4cfdf5c5; WORD $0x2042             // vpaddw    ymm1, ymm1, yword [rdx + 2*rax + 32]
+	LONG $0x54fdedc5; WORD $0x4042             // vpaddw    ymm2, ymm2, yword [rdx + 2*rax + 64]
+	LONG $0x5cfde5c5; WORD $0x6042             // vpaddw    ymm3, ymm3, yword [rdx + 2*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x4004             // vmovdqu    yword [r8 + 2*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x404c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x4054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x405c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rax + 96], ymm3
+	LONG $0x40c08348                           // add    rax, 64
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_69
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_138
+
+LBB0_71:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_73
+
+LBB0_72:
+	LONG $0x711cb70f             // movzx    ebx, word [rcx + 2*rsi]
+	LONG $0x721c0366             // add    bx, word [rdx + 2*rsi]
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_72
+
+LBB0_73:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_138
+
+LBB0_74:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
+	JNE  LBB0_74
+	JMP  LBB0_138
+
+LBB0_108:
+	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
+	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_113
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_113
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_111:
+	LONG $0x046ffec5; BYTE $0xc1               // vmovdqu    ymm0, yword [rcx + 8*rax]
+	LONG $0x4c6ffec5; WORD $0x20c1             // vmovdqu    ymm1, yword [rcx + 8*rax + 32]
+	LONG $0x546ffec5; WORD $0x40c1             // vmovdqu    ymm2, yword [rcx + 8*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x60c1             // vmovdqu    ymm3, yword [rcx + 8*rax + 96]
+	LONG $0x04d4fdc5; BYTE $0xc2               // vpaddq    ymm0, ymm0, yword [rdx + 8*rax]
+	LONG $0x4cd4f5c5; WORD $0x20c2             // vpaddq    ymm1, ymm1, yword [rdx + 8*rax + 32]
+	LONG $0x54d4edc5; WORD $0x40c2             // vpaddq    ymm2, ymm2, yword [rdx + 8*rax + 64]
+	LONG $0x5cd4e5c5; WORD $0x60c2             // vpaddq    ymm3, ymm3, yword [rdx + 8*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0xc004             // vmovdqu    yword [r8 + 8*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0xc04c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm3
+	LONG $0x10c08348                           // add    rax, 16
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_111
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_138
+
+LBB0_113:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_115
+
+LBB0_114:
+	LONG $0xf11c8b48 // mov    rbx, qword [rcx + 8*rsi]
+	LONG $0xf21c0348 // add    rbx, qword [rdx + 8*rsi]
+	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_114
+
+LBB0_115:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_138
+
+LBB0_116:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_116
+	JMP  LBB0_138
+
+LBB0_120:
+	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
+	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_125
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_125
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_123:
+	LONG $0x0410fcc5; BYTE $0x81               // vmovups    ymm0, yword [rcx + 4*rax]
+	LONG $0x4c10fcc5; WORD $0x2081             // vmovups    ymm1, yword [rcx + 4*rax + 32]
+	LONG $0x5410fcc5; WORD $0x4081             // vmovups    ymm2, yword [rcx + 4*rax + 64]
+	LONG $0x5c10fcc5; WORD $0x6081             // vmovups    ymm3, yword [rcx + 4*rax + 96]
+	LONG $0x0458fcc5; BYTE $0x82               // vaddps    ymm0, ymm0, yword [rdx + 4*rax]
+	LONG $0x4c58f4c5; WORD $0x2082             // vaddps    ymm1, ymm1, yword [rdx + 4*rax + 32]
+	LONG $0x5458ecc5; WORD $0x4082             // vaddps    ymm2, ymm2, yword [rdx + 4*rax + 64]
+	LONG $0x5c58e4c5; WORD $0x6082             // vaddps    ymm3, ymm3, yword [rdx + 4*rax + 96]
+	LONG $0x117cc1c4; WORD $0x8004             // vmovups    yword [r8 + 4*rax], ymm0
+	LONG $0x117cc1c4; WORD $0x804c; BYTE $0x20 // vmovups    yword [r8 + 4*rax + 32], ymm1
+	LONG $0x117cc1c4; WORD $0x8054; BYTE $0x40 // vmovups    yword [r8 + 4*rax + 64], ymm2
+	LONG $0x117cc1c4; WORD $0x805c; BYTE $0x60 // vmovups    yword [r8 + 4*rax + 96], ymm3
+	LONG $0x20c08348                           // add    rax, 32
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_123
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_138
+
+LBB0_125:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_127
+
+LBB0_126:
+	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x0458fac5; BYTE $0xb2   // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_126
+
+LBB0_127:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_138
+
+LBB0_128:
+	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x0458fac5; BYTE $0xb2               // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x4458fac5; WORD $0x04b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x4458fac5; WORD $0x08b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x4458fac5; WORD $0x0cb2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB0_128
+	JMP  LBB0_138
+
+LBB0_33:
+	LONG $0x18348d4b         // lea    rsi, [r8 + r11]
+	LONG $0x1a048d4a         // lea    rax, [rdx + r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x19048d4a         // lea    rax, [rcx + r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_38
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_38
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_36:
+	LONG $0x046ffec5; BYTE $0x01               // vmovdqu    ymm0, yword [rcx + rax]
+	LONG $0x4c6ffec5; WORD $0x2001             // vmovdqu    ymm1, yword [rcx + rax + 32]
+	LONG $0x546ffec5; WORD $0x4001             // vmovdqu    ymm2, yword [rcx + rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6001             // vmovdqu    ymm3, yword [rcx + rax + 96]
+	LONG $0x04fcfdc5; BYTE $0x02               // vpaddb    ymm0, ymm0, yword [rdx + rax]
+	LONG $0x4cfcf5c5; WORD $0x2002             // vpaddb    ymm1, ymm1, yword [rdx + rax + 32]
+	LONG $0x54fcedc5; WORD $0x4002             // vpaddb    ymm2, ymm2, yword [rdx + rax + 64]
+	LONG $0x5cfce5c5; WORD $0x6002             // vpaddb    ymm3, ymm3, yword [rdx + rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x0004             // vmovdqu    yword [r8 + rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x004c; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm3
+	LONG $0x80e88348                           // sub    rax, -128
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_36
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_138
+
+LBB0_38:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_40
+
+LBB0_39:
+	LONG $0x311cb60f         // movzx    ebx, byte [rcx + rsi]
+	WORD $0x1c02; BYTE $0x32 // add    bl, byte [rdx + rsi]
+	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_39
+
+LBB0_40:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_138
+
+LBB0_41:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_41
+	JMP  LBB0_138
+
+LBB0_87:
+	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
+	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd2970f41         // seta    r10b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_92
+	WORD $0x2044; BYTE $0xd0 // and    al, r10b
+	JNE  LBB0_92
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_90:
+	LONG $0x046ffec5; BYTE $0x81               // vmovdqu    ymm0, yword [rcx + 4*rax]
+	LONG $0x4c6ffec5; WORD $0x2081             // vmovdqu    ymm1, yword [rcx + 4*rax + 32]
+	LONG $0x546ffec5; WORD $0x4081             // vmovdqu    ymm2, yword [rcx + 4*rax + 64]
+	LONG $0x5c6ffec5; WORD $0x6081             // vmovdqu    ymm3, yword [rcx + 4*rax + 96]
+	LONG $0x04fefdc5; BYTE $0x82               // vpaddd    ymm0, ymm0, yword [rdx + 4*rax]
+	LONG $0x4cfef5c5; WORD $0x2082             // vpaddd    ymm1, ymm1, yword [rdx + 4*rax + 32]
+	LONG $0x54feedc5; WORD $0x4082             // vpaddd    ymm2, ymm2, yword [rdx + 4*rax + 64]
+	LONG $0x5cfee5c5; WORD $0x6082             // vpaddd    ymm3, ymm3, yword [rdx + 4*rax + 96]
+	LONG $0x7f7ec1c4; WORD $0x8004             // vmovdqu    yword [r8 + 4*rax], ymm0
+	LONG $0x7f7ec1c4; WORD $0x804c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm3
+	LONG $0x20c08348                           // add    rax, 32
+	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	JNE  LBB0_90
+	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
+	JE   LBB0_138
+
+LBB0_92:
+	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
+	WORD $0xf749; BYTE $0xd2 // not    r10
+	WORD $0x014d; BYTE $0xda // add    r10, r11
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_94
+
+LBB0_93:
+	WORD $0x1c8b; BYTE $0xb1 // mov    ebx, dword [rcx + 4*rsi]
+	WORD $0x1c03; BYTE $0xb2 // add    ebx, dword [rdx + 4*rsi]
+	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_93
+
+LBB0_94:
+	LONG $0x03fa8349 // cmp    r10, 3
+	JB   LBB0_138
+
+LBB0_95:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
+	JNE  LBB0_95
+	JMP  LBB0_138
+
+TEXT ·_arithmetic_arr_scalar_avx2(SB), $0-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ op+8(FP), SI
+	MOVQ inLeft+16(FP), DX
+	MOVQ inRight+24(FP), CX
+	MOVQ out+32(FP), R8
+	MOVQ len+40(FP), R9
+
+	LONG $0x01fe8040         // cmp    sil, 1
+	JG   LBB1_11
+	WORD $0x8440; BYTE $0xf6 // test    sil, sil
+	JE   LBB1_28
+	LONG $0x01fe8040         // cmp    sil, 1
+	JNE  LBB1_517
+
+LBB1_3:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_36
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_60
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_98
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_101
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_474
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_10
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_254
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_254
+
+LBB1_10:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_398:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_400
+
+LBB1_399:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_399
+
+LBB1_400:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_474
+
+LBB1_401:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_401
+	JMP  LBB1_474
+
+LBB1_11:
+	LONG $0x02fe8040 // cmp    sil, 2
+	JE   LBB1_474
+	LONG $0x03fe8040 // cmp    sil, 3
+	JNE  LBB1_517
+
+LBB1_13:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_21
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_50
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_70
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_73
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_517
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_20
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_194
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_194
+
+LBB1_20:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_318:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_320
+
+LBB1_319:
+	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
+	WORD $0xc329             // sub    ebx, eax
+	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc18348         // add    rcx, -1
+	JNE  LBB1_319
+
+LBB1_320:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB1_517
+
+LBB1_321:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_321
+	JMP  LBB1_517
+
+LBB1_21:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_55
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_76
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_79
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_517
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_27
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_197
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_197
+
+LBB1_27:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_326:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_328
+
+LBB1_327:
+	LONG $0x0c10fbc5; BYTE $0xca   // vmovsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85cf3c5               // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_327
+
+LBB1_328:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_517
+
+LBB1_329:
+	LONG $0x0c10fbc5; BYTE $0xca               // vmovsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c10fbc5; WORD $0x08ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 8]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c10fbc5; WORD $0x10ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 16]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c10fbc5; WORD $0x18ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 24]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_329
+	JMP  LBB1_517
+
+LBB1_28:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_43
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_88
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_116
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_119
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_3
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_35
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_284
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_284
+
+LBB1_35:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_662:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_664
+
+LBB1_663:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_663
+
+LBB1_664:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_3
+
+LBB1_665:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_665
+	JMP  LBB1_3
+
+LBB1_36:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_65
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_104
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_107
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_474
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_42
+	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_257
+	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_257
+
+LBB1_42:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_406:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_408
+
+LBB1_407:
+	LONG $0x0c58fbc5; BYTE $0xf2   // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf00c // vmovsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB1_407
+
+LBB1_408:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB1_474
+
+LBB1_409:
+	LONG $0x0c58fbc5; BYTE $0xf2               // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf00c             // vmovsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x4c58fbc5; WORD $0x08f2             // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0x4c58fbc5; WORD $0x10f2             // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0x4c58fbc5; WORD $0x18f2             // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB1_409
+	JMP  LBB1_474
+
+LBB1_43:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_93
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_122
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_125
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_3
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_49
+	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_287
+	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_287
+
+LBB1_49:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_670:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_672
+
+LBB1_671:
+	LONG $0x0c58fbc5; BYTE $0xf2   // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf00c // vmovsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB1_671
+
+LBB1_672:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB1_3
+
+LBB1_673:
+	LONG $0x0c58fbc5; BYTE $0xf2               // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf00c             // vmovsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x4c58fbc5; WORD $0x08f2             // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0x4c58fbc5; WORD $0x10f2             // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0x4c58fbc5; WORD $0x18f2             // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB1_673
+	JMP  LBB1_3
+
+LBB1_50:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB1_82
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB1_517
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x018a                               // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_54
+	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
+	JBE  LBB1_200
+	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
+	JBE  LBB1_200
+
+LBB1_54:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_334:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_336
+
+LBB1_335:
+	LONG $0x321cb60f // movzx    ebx, byte [rdx + rsi]
+	WORD $0xc328     // sub    bl, al
+	LONG $0x301c8841 // mov    byte [r8 + rsi], bl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc18348 // add    rcx, -1
+	JNE  LBB1_335
+
+LBB1_336:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB1_517
+
+LBB1_337:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_337
+	JMP  LBB1_517
+
+LBB1_55:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_85
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_517
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_59
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_203
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_203
+
+LBB1_59:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_342:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_344
+
+LBB1_343:
+	LONG $0xf21c8b48         // mov    rbx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc3 // sub    rbx, rax
+	LONG $0xf01c8949         // mov    qword [r8 + 8*rsi], rbx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc18348         // add    rcx, -1
+	JNE  LBB1_343
+
+LBB1_344:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB1_517
+
+LBB1_345:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_345
+	JMP  LBB1_517
+
+LBB1_60:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB1_110
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB1_474
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8a44; BYTE $0x31                   // mov    r14b, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_64
+	LONG $0x12048d4a                           // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
+	JBE  LBB1_260
+	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JBE  LBB1_260
+
+LBB1_64:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_414:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_416
+
+LBB1_415:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0044; BYTE $0xf0 // add    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_415
+
+LBB1_416:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_474
+
+LBB1_417:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_417
+	JMP  LBB1_474
+
+LBB1_65:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_113
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_474
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_69
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_263
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_263
+
+LBB1_69:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_422:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_424
+
+LBB1_423:
+	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_423
+
+LBB1_424:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_474
+
+LBB1_425:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_425
+	JMP  LBB1_474
+
+LBB1_70:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_72
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_206
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_206
+
+LBB1_72:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_350:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_352
+
+LBB1_351:
+	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
+	WORD $0xc329                 // sub    ebx, eax
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_351
+
+LBB1_352:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB1_517
+
+LBB1_353:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_353
+	JMP  LBB1_517
+
+LBB1_73:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_75
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_209
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_209
+
+LBB1_75:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_358:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_360
+
+LBB1_359:
+	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
+	WORD $0xc329                 // sub    ebx, eax
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_359
+
+LBB1_360:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB1_517
+
+LBB1_361:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_361
+	JMP  LBB1_517
+
+LBB1_76:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_78
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_212
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_212
+
+LBB1_78:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_366:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_368
+
+LBB1_367:
+	LONG $0xf21c8b48         // mov    rbx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc3 // sub    rbx, rax
+	LONG $0xf01c8949         // mov    qword [r8 + 8*rsi], rbx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc18348         // add    rcx, -1
+	JNE  LBB1_367
+
+LBB1_368:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB1_517
+
+LBB1_369:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_369
+	JMP  LBB1_517
+
+LBB1_79:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_81
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_215
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_215
+
+LBB1_81:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_374:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_376
+
+LBB1_375:
+	LONG $0x0c10fac5; BYTE $0x8a   // vmovss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85cf2c5               // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_375
+
+LBB1_376:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_517
+
+LBB1_377:
+	LONG $0x0c10fac5; BYTE $0x8a               // vmovss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c10fac5; WORD $0x048a             // vmovss    xmm1, dword [rdx + 4*rcx + 4]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c10fac5; WORD $0x088a             // vmovss    xmm1, dword [rdx + 4*rcx + 8]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c10fac5; WORD $0x0c8a             // vmovss    xmm1, dword [rdx + 4*rcx + 12]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_377
+	JMP  LBB1_517
+
+LBB1_82:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x018a                               // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_84
+	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
+	JBE  LBB1_218
+	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
+	JBE  LBB1_218
+
+LBB1_84:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_382:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_384
+
+LBB1_383:
+	LONG $0x321cb60f // movzx    ebx, byte [rdx + rsi]
+	WORD $0xc328     // sub    bl, al
+	LONG $0x301c8841 // mov    byte [r8 + rsi], bl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc18348 // add    rcx, -1
+	JNE  LBB1_383
+
+LBB1_384:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB1_517
+
+LBB1_385:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_385
+	JMP  LBB1_517
+
+LBB1_85:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_87
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_221
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_221
+
+LBB1_87:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_390:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_392
+
+LBB1_391:
+	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
+	WORD $0xc329             // sub    ebx, eax
+	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc18348         // add    rcx, -1
+	JNE  LBB1_391
+
+LBB1_392:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB1_517
+
+LBB1_393:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_393
+	JMP  LBB1_517
+
+LBB1_88:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB1_128
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB1_3
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8a44; BYTE $0x31                   // mov    r14b, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_92
+	LONG $0x12048d4a                           // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
+	JBE  LBB1_290
+	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JBE  LBB1_290
+
+LBB1_92:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_678:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_680
+
+LBB1_679:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0044; BYTE $0xf0 // add    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_679
+
+LBB1_680:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_3
+
+LBB1_681:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_681
+	JMP  LBB1_3
+
+LBB1_93:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_131
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_3
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_97
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_293
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_293
+
+LBB1_97:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_686:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_688
+
+LBB1_687:
+	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_687
+
+LBB1_688:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_3
+
+LBB1_689:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_689
+	JMP  LBB1_3
+
+LBB1_98:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_100
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_266
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_266
+
+LBB1_100:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_430:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB1_432
+
+LBB1_431:
+	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
+	LONG $0xf3014466             // add    bx, r14w
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB1_431
+
+LBB1_432:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_474
+
+LBB1_433:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_433
+	JMP  LBB1_474
+
+LBB1_101:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_103
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_269
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_269
+
+LBB1_103:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_438:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB1_440
+
+LBB1_439:
+	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
+	LONG $0xf3014466             // add    bx, r14w
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB1_439
+
+LBB1_440:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_474
+
+LBB1_441:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_441
+	JMP  LBB1_474
+
+LBB1_104:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_106
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_272
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_272
+
+LBB1_106:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_446:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_448
+
+LBB1_447:
+	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_447
+
+LBB1_448:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_474
+
+LBB1_449:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_449
+	JMP  LBB1_474
+
+LBB1_107:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_109
+	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_275
+	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_275
+
+LBB1_109:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_454:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_456
+
+LBB1_455:
+	LONG $0x0c58fac5; BYTE $0xb2   // vaddss    xmm1, xmm0, dword [rdx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb00c // vmovss    dword [r8 + 4*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB1_455
+
+LBB1_456:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB1_474
+
+LBB1_457:
+	LONG $0x0c58fac5; BYTE $0xb2               // vaddss    xmm1, xmm0, dword [rdx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb00c             // vmovss    dword [r8 + 4*rsi], xmm1
+	LONG $0x4c58fac5; WORD $0x04b2             // vaddss    xmm1, xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm1
+	LONG $0x4c58fac5; WORD $0x08b2             // vaddss    xmm1, xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm1
+	LONG $0x4c58fac5; WORD $0x0cb2             // vaddss    xmm1, xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB1_457
+	JMP  LBB1_474
+
+LBB1_110:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8a44; BYTE $0x31                   // mov    r14b, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_112
+	LONG $0x12048d4a                           // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
+	JBE  LBB1_278
+	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JBE  LBB1_278
+
+LBB1_112:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_462:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_464
+
+LBB1_463:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0044; BYTE $0xf0 // add    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_463
+
+LBB1_464:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_474
+
+LBB1_465:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_465
+	JMP  LBB1_474
+
+LBB1_113:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_115
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_281
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_281
+
+LBB1_115:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_470:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_472
+
+LBB1_471:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_471
+
+LBB1_472:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_474
+
+LBB1_473:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_473
+	JMP  LBB1_474
+
+LBB1_116:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_118
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_296
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_296
+
+LBB1_118:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_694:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB1_696
+
+LBB1_695:
+	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
+	LONG $0xf3014466             // add    bx, r14w
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB1_695
+
+LBB1_696:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_3
+
+LBB1_697:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_697
+	JMP  LBB1_3
+
+LBB1_119:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_121
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_299
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_299
+
+LBB1_121:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_702:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB1_704
+
+LBB1_703:
+	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
+	LONG $0xf3014466             // add    bx, r14w
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB1_703
+
+LBB1_704:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_3
+
+LBB1_705:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_705
+	JMP  LBB1_3
+
+LBB1_122:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_124
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_302
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_302
+
+LBB1_124:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_710:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_712
+
+LBB1_711:
+	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_711
+
+LBB1_712:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_3
+
+LBB1_713:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_713
+	JMP  LBB1_3
+
+LBB1_125:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_127
+	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_305
+	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_305
+
+LBB1_127:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_718:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_720
+
+LBB1_719:
+	LONG $0x0c58fac5; BYTE $0xb2   // vaddss    xmm1, xmm0, dword [rdx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb00c // vmovss    dword [r8 + 4*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB1_719
+
+LBB1_720:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB1_3
+
+LBB1_721:
+	LONG $0x0c58fac5; BYTE $0xb2               // vaddss    xmm1, xmm0, dword [rdx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb00c             // vmovss    dword [r8 + 4*rsi], xmm1
+	LONG $0x4c58fac5; WORD $0x04b2             // vaddss    xmm1, xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm1
+	LONG $0x4c58fac5; WORD $0x08b2             // vaddss    xmm1, xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm1
+	LONG $0x4c58fac5; WORD $0x0cb2             // vaddss    xmm1, xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB1_721
+	JMP  LBB1_3
+
+LBB1_128:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8a44; BYTE $0x31                   // mov    r14b, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_130
+	LONG $0x12048d4a                           // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
+	JBE  LBB1_308
+	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JBE  LBB1_308
+
+LBB1_130:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_726:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_728
+
+LBB1_727:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0044; BYTE $0xf0 // add    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_727
+
+LBB1_728:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_3
+
+LBB1_729:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_729
+	JMP  LBB1_3
+
+LBB1_131:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_133
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_311
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_311
+
+LBB1_133:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_734:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_736
+
+LBB1_735:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_735
+
+LBB1_736:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_3
+
+LBB1_737:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_737
+	JMP  LBB1_3
+
+LBB1_194:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_314
+	WORD $0x894c; BYTE $0xcb     // mov    rbx, r9
+	LONG $0xfee38348             // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_196:
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB1_196
+	JMP  LBB1_315
+
+LBB1_197:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
+	WORD $0x8948; BYTE $0xf3     // mov    rbx, rsi
+	LONG $0x04ebc148             // shr    rbx, 4
+	LONG $0x01c38348             // add    rbx, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_322
+	WORD $0x8948; BYTE $0xdf     // mov    rdi, rbx
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+
+LBB1_199:
+	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
+	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
+	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
+	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
+	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
+	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
+	QUAD $0x000080f29410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + 8*rsi + 128]
+	QUAD $0x0000a0f29c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + 8*rsi + 160]
+	QUAD $0x0000c0f2a410fdc5; BYTE $0x00       // vmovupd    ymm4, yword [rdx + 8*rsi + 192]
+	QUAD $0x0000e0f2ac10fdc5; BYTE $0x00       // vmovupd    ymm5, yword [rdx + 8*rsi + 224]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
+	QUAD $0x0080f094117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 128], ymm2
+	QUAD $0x00a0f09c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 160], ymm3
+	QUAD $0x00c0f0a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 192], ymm4
+	QUAD $0x00e0f0ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 224], ymm5
+	LONG $0x20c68348                           // add    rsi, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_199
+	JMP  LBB1_323
+
+LBB1_200:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_330
+	WORD $0x894c; BYTE $0xcb     // mov    rbx, r9
+	LONG $0xfee38348             // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_202:
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB1_202
+	JMP  LBB1_331
+
+LBB1_203:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_338
+	WORD $0x894c; BYTE $0xcb     // mov    rbx, r9
+	LONG $0xfee38348             // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_205:
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB1_205
+	JMP  LBB1_339
+
+LBB1_206:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_346
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_208:
+	LONG $0x0c6ffec5; BYTE $0x5a               // vmovdqu    ymm1, yword [rdx + 2*rbx]
+	LONG $0x546ffec5; WORD $0x205a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
+	LONG $0x4c6ffec5; WORD $0x405a             // vmovdqu    ymm1, yword [rdx + 2*rbx + 64]
+	LONG $0x546ffec5; WORD $0x605a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 96]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_208
+	JMP  LBB1_347
+
+LBB1_209:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_354
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_211:
+	LONG $0x0c6ffec5; BYTE $0x5a               // vmovdqu    ymm1, yword [rdx + 2*rbx]
+	LONG $0x546ffec5; WORD $0x205a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
+	LONG $0x4c6ffec5; WORD $0x405a             // vmovdqu    ymm1, yword [rdx + 2*rbx + 64]
+	LONG $0x546ffec5; WORD $0x605a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 96]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_211
+	JMP  LBB1_355
+
+LBB1_212:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_362
+	WORD $0x894c; BYTE $0xcb     // mov    rbx, r9
+	LONG $0xfee38348             // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_214:
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB1_214
+	JMP  LBB1_363
+
+LBB1_215:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
+	WORD $0x8948; BYTE $0xf3     // mov    rbx, rsi
+	LONG $0x05ebc148             // shr    rbx, 5
+	LONG $0x01c38348             // add    rbx, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_370
+	WORD $0x8948; BYTE $0xdf     // mov    rdi, rbx
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+
+LBB1_217:
+	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
+	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
+	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
+	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
+	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
+	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm5
+	QUAD $0x000080b29410fcc5; BYTE $0x00       // vmovups    ymm2, yword [rdx + 4*rsi + 128]
+	QUAD $0x0000a0b29c10fcc5; BYTE $0x00       // vmovups    ymm3, yword [rdx + 4*rsi + 160]
+	QUAD $0x0000c0b2a410fcc5; BYTE $0x00       // vmovups    ymm4, yword [rdx + 4*rsi + 192]
+	QUAD $0x0000e0b2ac10fcc5; BYTE $0x00       // vmovups    ymm5, yword [rdx + 4*rsi + 224]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
+	QUAD $0x0080b094117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 128], ymm2
+	QUAD $0x00a0b09c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 160], ymm3
+	QUAD $0x00c0b0a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 192], ymm4
+	QUAD $0x00e0b0ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 224], ymm5
+	LONG $0x40c68348                           // add    rsi, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_217
+	JMP  LBB1_371
+
+LBB1_218:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_378
+	WORD $0x894c; BYTE $0xcb     // mov    rbx, r9
+	LONG $0xfee38348             // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_220:
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB1_220
+	JMP  LBB1_379
+
+LBB1_221:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_386
+	WORD $0x894c; BYTE $0xcb     // mov    rbx, r9
+	LONG $0xfee38348             // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_223:
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB1_223
+	JMP  LBB1_387
+
+LBB1_254:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_394
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_256:
+	LONG $0x0cfefdc5; BYTE $0x9a               // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx]
+	LONG $0x54fefdc5; WORD $0x209a             // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 32]
+	LONG $0x5cfefdc5; WORD $0x409a             // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 64]
+	LONG $0x64fefdc5; WORD $0x609a             // vpaddd    ymm4, ymm0, yword [rdx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
+	QUAD $0x0000809a8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx + 128]
+	QUAD $0x0000a09a94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 160]
+	QUAD $0x0000c09a9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 192]
+	QUAD $0x0000e09aa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rbx + 224]
+	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
+	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
+	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
+	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_256
+	JMP  LBB1_395
+
+LBB1_257:
+	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
+	LONG $0x04eac149             // shr    r10, 4
+	LONG $0x01c28349             // add    r10, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_402
+	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_259:
+	LONG $0x1458f5c5; BYTE $0xda               // vaddpd    ymm2, ymm1, yword [rdx + 8*rbx]
+	LONG $0x5c58f5c5; WORD $0x20da             // vaddpd    ymm3, ymm1, yword [rdx + 8*rbx + 32]
+	LONG $0x6458f5c5; WORD $0x40da             // vaddpd    ymm4, ymm1, yword [rdx + 8*rbx + 64]
+	LONG $0x6c58f5c5; WORD $0x60da             // vaddpd    ymm5, ymm1, yword [rdx + 8*rbx + 96]
+	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
+	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xd86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm5
+	QUAD $0x000080da9458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rdx + 8*rbx + 128]
+	QUAD $0x0000a0da9c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rdx + 8*rbx + 160]
+	QUAD $0x0000c0daa458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rdx + 8*rbx + 192]
+	QUAD $0x0000e0daac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rdx + 8*rbx + 224]
+	QUAD $0x0080d894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 128], ymm2
+	QUAD $0x00a0d89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 160], ymm3
+	QUAD $0x00c0d8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 192], ymm4
+	QUAD $0x00e0d8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 224], ymm5
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_259
+	JMP  LBB1_403
+
+LBB1_260:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80468d48             // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x07ebc149             // shr    r11, 7
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_410
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_262:
+	LONG $0x0cfcfdc5; BYTE $0x1a               // vpaddb    ymm1, ymm0, yword [rdx + rbx]
+	LONG $0x54fcfdc5; WORD $0x201a             // vpaddb    ymm2, ymm0, yword [rdx + rbx + 32]
+	LONG $0x5cfcfdc5; WORD $0x401a             // vpaddb    ymm3, ymm0, yword [rdx + rbx + 64]
+	LONG $0x64fcfdc5; WORD $0x601a             // vpaddb    ymm4, ymm0, yword [rdx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
+	QUAD $0x0000801a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rbx + 128]
+	QUAD $0x0000a01a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rbx + 160]
+	QUAD $0x0000c01a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rbx + 192]
+	QUAD $0x0000e01aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rbx + 224]
+	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
+	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
+	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
+	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
+	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_262
+	JMP  LBB1_411
+
+LBB1_263:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_418
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_265:
+	LONG $0x0cd4fdc5; BYTE $0xda               // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx]
+	LONG $0x54d4fdc5; WORD $0x20da             // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 32]
+	LONG $0x5cd4fdc5; WORD $0x40da             // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 64]
+	LONG $0x64d4fdc5; WORD $0x60da             // vpaddq    ymm4, ymm0, yword [rdx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
+	QUAD $0x000080da8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx + 128]
+	QUAD $0x0000a0da94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 160]
+	QUAD $0x0000c0da9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 192]
+	QUAD $0x0000e0daa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rbx + 224]
+	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
+	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
+	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
+	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_265
+	JMP  LBB1_419
+
+LBB1_266:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_426
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_268:
+	LONG $0x0cfdfdc5; BYTE $0x5a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx]
+	LONG $0x54fdfdc5; WORD $0x205a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x405a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx + 64]
+	LONG $0x54fdfdc5; WORD $0x605a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_268
+	JMP  LBB1_427
+
+LBB1_269:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_434
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_271:
+	LONG $0x0cfdfdc5; BYTE $0x5a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx]
+	LONG $0x54fdfdc5; WORD $0x205a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x405a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx + 64]
+	LONG $0x54fdfdc5; WORD $0x605a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_271
+	JMP  LBB1_435
+
+LBB1_272:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_442
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_274:
+	LONG $0x0cd4fdc5; BYTE $0xda               // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx]
+	LONG $0x54d4fdc5; WORD $0x20da             // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 32]
+	LONG $0x5cd4fdc5; WORD $0x40da             // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 64]
+	LONG $0x64d4fdc5; WORD $0x60da             // vpaddq    ymm4, ymm0, yword [rdx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
+	QUAD $0x000080da8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx + 128]
+	QUAD $0x0000a0da94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 160]
+	QUAD $0x0000c0da9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 192]
+	QUAD $0x0000e0daa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rbx + 224]
+	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
+	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
+	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
+	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_274
+	JMP  LBB1_443
+
+LBB1_275:
+	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
+	LONG $0x05eac149             // shr    r10, 5
+	LONG $0x01c28349             // add    r10, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_450
+	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_277:
+	LONG $0x1458f4c5; BYTE $0x9a               // vaddps    ymm2, ymm1, yword [rdx + 4*rbx]
+	LONG $0x5c58f4c5; WORD $0x209a             // vaddps    ymm3, ymm1, yword [rdx + 4*rbx + 32]
+	LONG $0x6458f4c5; WORD $0x409a             // vaddps    ymm4, ymm1, yword [rdx + 4*rbx + 64]
+	LONG $0x6c58f4c5; WORD $0x609a             // vaddps    ymm5, ymm1, yword [rdx + 4*rbx + 96]
+	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
+	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
+	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
+	LONG $0x117cc1c4; WORD $0x986c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm5
+	QUAD $0x0000809a9458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rdx + 4*rbx + 128]
+	QUAD $0x0000a09a9c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rdx + 4*rbx + 160]
+	QUAD $0x0000c09aa458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rdx + 4*rbx + 192]
+	QUAD $0x0000e09aac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rdx + 4*rbx + 224]
+	QUAD $0x00809894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 128], ymm2
+	QUAD $0x00a0989c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 160], ymm3
+	QUAD $0x00c098a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 192], ymm4
+	QUAD $0x00e098ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 224], ymm5
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_277
+	JMP  LBB1_451
+
+LBB1_278:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80468d48             // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x07ebc149             // shr    r11, 7
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_458
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_280:
+	LONG $0x0cfcfdc5; BYTE $0x1a               // vpaddb    ymm1, ymm0, yword [rdx + rbx]
+	LONG $0x54fcfdc5; WORD $0x201a             // vpaddb    ymm2, ymm0, yword [rdx + rbx + 32]
+	LONG $0x5cfcfdc5; WORD $0x401a             // vpaddb    ymm3, ymm0, yword [rdx + rbx + 64]
+	LONG $0x64fcfdc5; WORD $0x601a             // vpaddb    ymm4, ymm0, yword [rdx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
+	QUAD $0x0000801a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rbx + 128]
+	QUAD $0x0000a01a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rbx + 160]
+	QUAD $0x0000c01a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rbx + 192]
+	QUAD $0x0000e01aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rbx + 224]
+	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
+	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
+	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
+	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
+	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_280
+	JMP  LBB1_459
+
+LBB1_281:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_466
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_283:
+	LONG $0x0cfefdc5; BYTE $0x9a               // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx]
+	LONG $0x54fefdc5; WORD $0x209a             // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 32]
+	LONG $0x5cfefdc5; WORD $0x409a             // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 64]
+	LONG $0x64fefdc5; WORD $0x609a             // vpaddd    ymm4, ymm0, yword [rdx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
+	QUAD $0x0000809a8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx + 128]
+	QUAD $0x0000a09a94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 160]
+	QUAD $0x0000c09a9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 192]
+	QUAD $0x0000e09aa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rbx + 224]
+	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
+	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
+	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
+	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_283
+	JMP  LBB1_467
+
+LBB1_284:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_658
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_286:
+	LONG $0x0cfefdc5; BYTE $0x9a               // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx]
+	LONG $0x54fefdc5; WORD $0x209a             // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 32]
+	LONG $0x5cfefdc5; WORD $0x409a             // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 64]
+	LONG $0x64fefdc5; WORD $0x609a             // vpaddd    ymm4, ymm0, yword [rdx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
+	QUAD $0x0000809a8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx + 128]
+	QUAD $0x0000a09a94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 160]
+	QUAD $0x0000c09a9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 192]
+	QUAD $0x0000e09aa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rbx + 224]
+	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
+	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
+	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
+	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_286
+	JMP  LBB1_659
+
+LBB1_287:
+	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
+	LONG $0x04eac149             // shr    r10, 4
+	LONG $0x01c28349             // add    r10, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_666
+	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_289:
+	LONG $0x1458f5c5; BYTE $0xda               // vaddpd    ymm2, ymm1, yword [rdx + 8*rbx]
+	LONG $0x5c58f5c5; WORD $0x20da             // vaddpd    ymm3, ymm1, yword [rdx + 8*rbx + 32]
+	LONG $0x6458f5c5; WORD $0x40da             // vaddpd    ymm4, ymm1, yword [rdx + 8*rbx + 64]
+	LONG $0x6c58f5c5; WORD $0x60da             // vaddpd    ymm5, ymm1, yword [rdx + 8*rbx + 96]
+	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
+	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xd86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm5
+	QUAD $0x000080da9458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rdx + 8*rbx + 128]
+	QUAD $0x0000a0da9c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rdx + 8*rbx + 160]
+	QUAD $0x0000c0daa458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rdx + 8*rbx + 192]
+	QUAD $0x0000e0daac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rdx + 8*rbx + 224]
+	QUAD $0x0080d894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 128], ymm2
+	QUAD $0x00a0d89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 160], ymm3
+	QUAD $0x00c0d8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 192], ymm4
+	QUAD $0x00e0d8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 224], ymm5
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_289
+	JMP  LBB1_667
+
+LBB1_290:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80468d48             // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x07ebc149             // shr    r11, 7
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_674
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_292:
+	LONG $0x0cfcfdc5; BYTE $0x1a               // vpaddb    ymm1, ymm0, yword [rdx + rbx]
+	LONG $0x54fcfdc5; WORD $0x201a             // vpaddb    ymm2, ymm0, yword [rdx + rbx + 32]
+	LONG $0x5cfcfdc5; WORD $0x401a             // vpaddb    ymm3, ymm0, yword [rdx + rbx + 64]
+	LONG $0x64fcfdc5; WORD $0x601a             // vpaddb    ymm4, ymm0, yword [rdx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
+	QUAD $0x0000801a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rbx + 128]
+	QUAD $0x0000a01a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rbx + 160]
+	QUAD $0x0000c01a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rbx + 192]
+	QUAD $0x0000e01aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rbx + 224]
+	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
+	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
+	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
+	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
+	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_292
+	JMP  LBB1_675
+
+LBB1_293:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_682
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_295:
+	LONG $0x0cd4fdc5; BYTE $0xda               // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx]
+	LONG $0x54d4fdc5; WORD $0x20da             // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 32]
+	LONG $0x5cd4fdc5; WORD $0x40da             // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 64]
+	LONG $0x64d4fdc5; WORD $0x60da             // vpaddq    ymm4, ymm0, yword [rdx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
+	QUAD $0x000080da8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx + 128]
+	QUAD $0x0000a0da94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 160]
+	QUAD $0x0000c0da9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 192]
+	QUAD $0x0000e0daa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rbx + 224]
+	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
+	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
+	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
+	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_295
+	JMP  LBB1_683
+
+LBB1_296:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_690
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_298:
+	LONG $0x0cfdfdc5; BYTE $0x5a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx]
+	LONG $0x54fdfdc5; WORD $0x205a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x405a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx + 64]
+	LONG $0x54fdfdc5; WORD $0x605a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_298
+	JMP  LBB1_691
+
+LBB1_299:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_698
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_301:
+	LONG $0x0cfdfdc5; BYTE $0x5a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx]
+	LONG $0x54fdfdc5; WORD $0x205a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x405a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx + 64]
+	LONG $0x54fdfdc5; WORD $0x605a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_301
+	JMP  LBB1_699
+
+LBB1_302:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_706
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_304:
+	LONG $0x0cd4fdc5; BYTE $0xda               // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx]
+	LONG $0x54d4fdc5; WORD $0x20da             // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 32]
+	LONG $0x5cd4fdc5; WORD $0x40da             // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 64]
+	LONG $0x64d4fdc5; WORD $0x60da             // vpaddq    ymm4, ymm0, yword [rdx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
+	QUAD $0x000080da8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx + 128]
+	QUAD $0x0000a0da94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 160]
+	QUAD $0x0000c0da9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 192]
+	QUAD $0x0000e0daa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rbx + 224]
+	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
+	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
+	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
+	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_304
+	JMP  LBB1_707
+
+LBB1_305:
+	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
+	LONG $0x05eac149             // shr    r10, 5
+	LONG $0x01c28349             // add    r10, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_714
+	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_307:
+	LONG $0x1458f4c5; BYTE $0x9a               // vaddps    ymm2, ymm1, yword [rdx + 4*rbx]
+	LONG $0x5c58f4c5; WORD $0x209a             // vaddps    ymm3, ymm1, yword [rdx + 4*rbx + 32]
+	LONG $0x6458f4c5; WORD $0x409a             // vaddps    ymm4, ymm1, yword [rdx + 4*rbx + 64]
+	LONG $0x6c58f4c5; WORD $0x609a             // vaddps    ymm5, ymm1, yword [rdx + 4*rbx + 96]
+	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
+	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
+	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
+	LONG $0x117cc1c4; WORD $0x986c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm5
+	QUAD $0x0000809a9458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rdx + 4*rbx + 128]
+	QUAD $0x0000a09a9c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rdx + 4*rbx + 160]
+	QUAD $0x0000c09aa458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rdx + 4*rbx + 192]
+	QUAD $0x0000e09aac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rdx + 4*rbx + 224]
+	QUAD $0x00809894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 128], ymm2
+	QUAD $0x00a0989c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 160], ymm3
+	QUAD $0x00c098a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 192], ymm4
+	QUAD $0x00e098ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 224], ymm5
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_307
+	JMP  LBB1_715
+
+LBB1_308:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80468d48             // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x07ebc149             // shr    r11, 7
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_722
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_310:
+	LONG $0x0cfcfdc5; BYTE $0x1a               // vpaddb    ymm1, ymm0, yword [rdx + rbx]
+	LONG $0x54fcfdc5; WORD $0x201a             // vpaddb    ymm2, ymm0, yword [rdx + rbx + 32]
+	LONG $0x5cfcfdc5; WORD $0x401a             // vpaddb    ymm3, ymm0, yword [rdx + rbx + 64]
+	LONG $0x64fcfdc5; WORD $0x601a             // vpaddb    ymm4, ymm0, yword [rdx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
+	QUAD $0x0000801a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rbx + 128]
+	QUAD $0x0000a01a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rbx + 160]
+	QUAD $0x0000c01a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rbx + 192]
+	QUAD $0x0000e01aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rbx + 224]
+	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
+	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
+	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
+	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
+	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_310
+	JMP  LBB1_723
+
+LBB1_311:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_730
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_313:
+	LONG $0x0cfefdc5; BYTE $0x9a               // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx]
+	LONG $0x54fefdc5; WORD $0x209a             // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 32]
+	LONG $0x5cfefdc5; WORD $0x409a             // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 64]
+	LONG $0x64fefdc5; WORD $0x609a             // vpaddd    ymm4, ymm0, yword [rdx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
+	QUAD $0x0000809a8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx + 128]
+	QUAD $0x0000a09a94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 160]
+	QUAD $0x0000c09a9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 192]
+	QUAD $0x0000e09aa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rbx + 224]
+	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
+	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
+	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
+	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_313
+	JMP  LBB1_731
+
+LBB1_314:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_315:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_317
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB1_317:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_517
+	JMP  LBB1_318
+
+LBB1_322:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_323:
+	WORD $0xc3f6; BYTE $0x01                   // test    bl, 1
+	JE   LBB1_325
+	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
+	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
+	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
+	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xc95cd5c5                           // vsubpd    ymm1, ymm5, ymm1
+	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
+	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
+
+LBB1_325:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_517
+	JMP  LBB1_326
+
+LBB1_330:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_331:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_333
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB1_333:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_517
+	JMP  LBB1_334
+
+LBB1_338:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_339:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_341
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB1_341:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_517
+	JMP  LBB1_342
+
+LBB1_346:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_347:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_349
+	LONG $0x0c6ffec5; BYTE $0x5a               // vmovdqu    ymm1, yword [rdx + 2*rbx]
+	LONG $0x546ffec5; WORD $0x205a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+
+LBB1_349:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_517
+	JMP  LBB1_350
+
+LBB1_354:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_355:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_357
+	LONG $0x0c6ffec5; BYTE $0x5a               // vmovdqu    ymm1, yword [rdx + 2*rbx]
+	LONG $0x546ffec5; WORD $0x205a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+
+LBB1_357:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_517
+	JMP  LBB1_358
+
+LBB1_362:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_363:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_365
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB1_365:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_517
+	JMP  LBB1_366
+
+LBB1_370:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_371:
+	WORD $0xc3f6; BYTE $0x01                   // test    bl, 1
+	JE   LBB1_373
+	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
+	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
+	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
+	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xc95cd4c5                           // vsubps    ymm1, ymm5, ymm1
+	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
+	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
+
+LBB1_373:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_517
+	JMP  LBB1_374
+
+LBB1_378:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_379:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_381
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB1_381:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_517
+	JMP  LBB1_382
+
+LBB1_386:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_387:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_389
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB1_389:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_517
+	JMP  LBB1_390
+
+LBB1_394:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_395:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_397
+	LONG $0x0cfefdc5; BYTE $0x9a               // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx]
+	LONG $0x54fefdc5; WORD $0x209a             // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 32]
+	LONG $0x5cfefdc5; WORD $0x409a             // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 64]
+	LONG $0x44fefdc5; WORD $0x609a             // vpaddd    ymm0, ymm0, yword [rdx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+
+LBB1_397:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_474
+	JMP  LBB1_398
+
+LBB1_402:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_403:
+	LONG $0x01c2f641                           // test    r10b, 1
+	JE   LBB1_405
+	LONG $0x1458f5c5; BYTE $0xda               // vaddpd    ymm2, ymm1, yword [rdx + 8*rbx]
+	LONG $0x5c58f5c5; WORD $0x20da             // vaddpd    ymm3, ymm1, yword [rdx + 8*rbx + 32]
+	LONG $0x6458f5c5; WORD $0x40da             // vaddpd    ymm4, ymm1, yword [rdx + 8*rbx + 64]
+	LONG $0x4c58f5c5; WORD $0x60da             // vaddpd    ymm1, ymm1, yword [rdx + 8*rbx + 96]
+	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
+	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xd84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm1
+
+LBB1_405:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB1_474
+	JMP  LBB1_406
+
+LBB1_410:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_411:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_413
+	LONG $0x0cfcfdc5; BYTE $0x1a               // vpaddb    ymm1, ymm0, yword [rdx + rbx]
+	LONG $0x54fcfdc5; WORD $0x201a             // vpaddb    ymm2, ymm0, yword [rdx + rbx + 32]
+	LONG $0x5cfcfdc5; WORD $0x401a             // vpaddb    ymm3, ymm0, yword [rdx + rbx + 64]
+	LONG $0x44fcfdc5; WORD $0x601a             // vpaddb    ymm0, ymm0, yword [rdx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+
+LBB1_413:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_474
+	JMP  LBB1_414
+
+LBB1_418:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_419:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_421
+	LONG $0x0cd4fdc5; BYTE $0xda               // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx]
+	LONG $0x54d4fdc5; WORD $0x20da             // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 32]
+	LONG $0x5cd4fdc5; WORD $0x40da             // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 64]
+	LONG $0x44d4fdc5; WORD $0x60da             // vpaddq    ymm0, ymm0, yword [rdx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+
+LBB1_421:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_474
+	JMP  LBB1_422
+
+LBB1_426:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_427:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_429
+	LONG $0x0cfdfdc5; BYTE $0x5a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx]
+	LONG $0x44fdfdc5; WORD $0x205a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+
+LBB1_429:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_474
+	JMP  LBB1_430
+
+LBB1_434:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_435:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_437
+	LONG $0x0cfdfdc5; BYTE $0x5a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx]
+	LONG $0x44fdfdc5; WORD $0x205a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+
+LBB1_437:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_474
+	JMP  LBB1_438
+
+LBB1_442:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_443:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_445
+	LONG $0x0cd4fdc5; BYTE $0xda               // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx]
+	LONG $0x54d4fdc5; WORD $0x20da             // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 32]
+	LONG $0x5cd4fdc5; WORD $0x40da             // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 64]
+	LONG $0x44d4fdc5; WORD $0x60da             // vpaddq    ymm0, ymm0, yword [rdx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+
+LBB1_445:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_474
+	JMP  LBB1_446
+
+LBB1_450:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_451:
+	LONG $0x01c2f641                           // test    r10b, 1
+	JE   LBB1_453
+	LONG $0x1458f4c5; BYTE $0x9a               // vaddps    ymm2, ymm1, yword [rdx + 4*rbx]
+	LONG $0x5c58f4c5; WORD $0x209a             // vaddps    ymm3, ymm1, yword [rdx + 4*rbx + 32]
+	LONG $0x6458f4c5; WORD $0x409a             // vaddps    ymm4, ymm1, yword [rdx + 4*rbx + 64]
+	LONG $0x4c58f4c5; WORD $0x609a             // vaddps    ymm1, ymm1, yword [rdx + 4*rbx + 96]
+	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
+	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
+	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
+	LONG $0x117cc1c4; WORD $0x984c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm1
+
+LBB1_453:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB1_474
+	JMP  LBB1_454
+
+LBB1_458:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_459:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_461
+	LONG $0x0cfcfdc5; BYTE $0x1a               // vpaddb    ymm1, ymm0, yword [rdx + rbx]
+	LONG $0x54fcfdc5; WORD $0x201a             // vpaddb    ymm2, ymm0, yword [rdx + rbx + 32]
+	LONG $0x5cfcfdc5; WORD $0x401a             // vpaddb    ymm3, ymm0, yword [rdx + rbx + 64]
+	LONG $0x44fcfdc5; WORD $0x601a             // vpaddb    ymm0, ymm0, yword [rdx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+
+LBB1_461:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_474
+	JMP  LBB1_462
+
+LBB1_466:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_467:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_469
+	LONG $0x0cfefdc5; BYTE $0x9a               // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx]
+	LONG $0x54fefdc5; WORD $0x209a             // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 32]
+	LONG $0x5cfefdc5; WORD $0x409a             // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 64]
+	LONG $0x44fefdc5; WORD $0x609a             // vpaddd    ymm0, ymm0, yword [rdx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+
+LBB1_469:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB1_470
+
+LBB1_474:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_482
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_489
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_499
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_502
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_13
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b44; BYTE $0x19 // mov    r11d, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_481
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_548
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_548
+
+LBB1_481:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_582:
+	WORD $0x8949; BYTE $0xf6 // mov    r14, rsi
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_584
+
+LBB1_583:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x2944; BYTE $0xd8 // sub    eax, r11d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_583
+
+LBB1_584:
+	LONG $0x03fe8349 // cmp    r14, 3
+	JB   LBB1_13
+
+LBB1_585:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x2944; BYTE $0xd8     // sub    eax, r11d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0x2944; BYTE $0xd8     // sub    eax, r11d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	WORD $0x2944; BYTE $0xd8     // sub    eax, r11d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	WORD $0x2944; BYTE $0xd8     // sub    eax, r11d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_585
+	JMP  LBB1_13
+
+LBB1_482:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_494
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_505
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_508
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_13
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_488
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_551
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_551
+
+LBB1_488:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_590:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_592
+
+LBB1_591:
+	LONG $0x0c10fbc5; BYTE $0xf2   // vmovsd    xmm1, qword [rdx + 8*rsi]
+	LONG $0xc85cf3c5               // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xf00c // vmovsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB1_591
+
+LBB1_592:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB1_13
+
+LBB1_593:
+	LONG $0x0c10fbc5; BYTE $0xf2               // vmovsd    xmm1, qword [rdx + 8*rsi]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xf00c             // vmovsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x4c10fbc5; WORD $0x08f2             // vmovsd    xmm1, qword [rdx + 8*rsi + 8]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0x4c10fbc5; WORD $0x10f2             // vmovsd    xmm1, qword [rdx + 8*rsi + 16]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0x4c10fbc5; WORD $0x18f2             // vmovsd    xmm1, qword [rdx + 8*rsi + 24]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB1_593
+	JMP  LBB1_13
+
+LBB1_489:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB1_511
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB1_13
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8a44; BYTE $0x19                   // mov    r11b, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_493
+	LONG $0x12048d4a                           // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
+	JBE  LBB1_554
+	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JBE  LBB1_554
+
+LBB1_493:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_598:
+	WORD $0x8949; BYTE $0xf6 // mov    r14, rsi
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_600
+
+LBB1_599:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x2844; BYTE $0xd8 // sub    al, r11b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_599
+
+LBB1_600:
+	LONG $0x03fe8349 // cmp    r14, 3
+	JB   LBB1_13
+
+LBB1_601:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x2844; BYTE $0xd8     // sub    al, r11b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	WORD $0x2844; BYTE $0xd8     // sub    al, r11b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	WORD $0x2844; BYTE $0xd8     // sub    al, r11b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0x2844; BYTE $0xd8     // sub    al, r11b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_601
+	JMP  LBB1_13
+
+LBB1_494:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_514
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_13
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b4c; BYTE $0x19 // mov    r11, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_498
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_557
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_557
+
+LBB1_498:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_606:
+	WORD $0x8949; BYTE $0xf6 // mov    r14, rsi
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_608
+
+LBB1_607:
+	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x294c; BYTE $0xd8 // sub    rax, r11
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_607
+
+LBB1_608:
+	LONG $0x03fe8349 // cmp    r14, 3
+	JB   LBB1_13
+
+LBB1_609:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x294c; BYTE $0xd8     // sub    rax, r11
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x294c; BYTE $0xd8     // sub    rax, r11
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	WORD $0x294c; BYTE $0xd8     // sub    rax, r11
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	WORD $0x294c; BYTE $0xd8     // sub    rax, r11
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_609
+	JMP  LBB1_13
+
+LBB1_499:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_501
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_560
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_560
+
+LBB1_501:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_614:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB1_616
+
+LBB1_615:
+	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
+	WORD $0x2944; BYTE $0xf3     // sub    ebx, r14d
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB1_615
+
+LBB1_616:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_13
+
+LBB1_617:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_617
+	JMP  LBB1_13
+
+LBB1_502:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_504
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_563
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_563
+
+LBB1_504:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_622:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB1_624
+
+LBB1_623:
+	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
+	WORD $0x2944; BYTE $0xf3     // sub    ebx, r14d
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB1_623
+
+LBB1_624:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_13
+
+LBB1_625:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_625
+	JMP  LBB1_13
+
+LBB1_505:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b4c; BYTE $0x19 // mov    r11, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_507
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_566
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_566
+
+LBB1_507:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_630:
+	WORD $0x8949; BYTE $0xf6 // mov    r14, rsi
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_632
+
+LBB1_631:
+	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x294c; BYTE $0xd8 // sub    rax, r11
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_631
+
+LBB1_632:
+	LONG $0x03fe8349 // cmp    r14, 3
+	JB   LBB1_13
+
+LBB1_633:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x294c; BYTE $0xd8     // sub    rax, r11
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x294c; BYTE $0xd8     // sub    rax, r11
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	WORD $0x294c; BYTE $0xd8     // sub    rax, r11
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	WORD $0x294c; BYTE $0xd8     // sub    rax, r11
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_633
+	JMP  LBB1_13
+
+LBB1_508:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_510
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_569
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_569
+
+LBB1_510:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_638:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_640
+
+LBB1_639:
+	LONG $0x0c10fac5; BYTE $0xb2   // vmovss    xmm1, dword [rdx + 4*rsi]
+	LONG $0xc85cf2c5               // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0xb00c // vmovss    dword [r8 + 4*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB1_639
+
+LBB1_640:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB1_13
+
+LBB1_641:
+	LONG $0x0c10fac5; BYTE $0xb2               // vmovss    xmm1, dword [rdx + 4*rsi]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0xb00c             // vmovss    dword [r8 + 4*rsi], xmm1
+	LONG $0x4c10fac5; WORD $0x04b2             // vmovss    xmm1, dword [rdx + 4*rsi + 4]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm1
+	LONG $0x4c10fac5; WORD $0x08b2             // vmovss    xmm1, dword [rdx + 4*rsi + 8]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm1
+	LONG $0x4c10fac5; WORD $0x0cb2             // vmovss    xmm1, dword [rdx + 4*rsi + 12]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB1_641
+	JMP  LBB1_13
+
+LBB1_511:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8a44; BYTE $0x19                   // mov    r11b, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_513
+	LONG $0x12048d4a                           // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
+	JBE  LBB1_572
+	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JBE  LBB1_572
+
+LBB1_513:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_646:
+	WORD $0x8949; BYTE $0xf6 // mov    r14, rsi
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_648
+
+LBB1_647:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x2844; BYTE $0xd8 // sub    al, r11b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_647
+
+LBB1_648:
+	LONG $0x03fe8349 // cmp    r14, 3
+	JB   LBB1_13
+
+LBB1_649:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x2844; BYTE $0xd8     // sub    al, r11b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	WORD $0x2844; BYTE $0xd8     // sub    al, r11b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	WORD $0x2844; BYTE $0xd8     // sub    al, r11b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0x2844; BYTE $0xd8     // sub    al, r11b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_649
+	JMP  LBB1_13
+
+LBB1_514:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b44; BYTE $0x19 // mov    r11d, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_516
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_575
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_575
+
+LBB1_516:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_654:
+	WORD $0x8949; BYTE $0xf6 // mov    r14, rsi
+	WORD $0xf749; BYTE $0xd6 // not    r14
+	WORD $0x014d; BYTE $0xd6 // add    r14, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_656
+
+LBB1_655:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x2944; BYTE $0xd8 // sub    eax, r11d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_655
+
+LBB1_656:
+	LONG $0x03fe8349 // cmp    r14, 3
+	JB   LBB1_13
+
+LBB1_657:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x2944; BYTE $0xd8     // sub    eax, r11d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0x2944; BYTE $0xd8     // sub    eax, r11d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	WORD $0x2944; BYTE $0xd8     // sub    eax, r11d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	WORD $0x2944; BYTE $0xd8     // sub    eax, r11d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_657
+	JMP  LBB1_13
+
+LBB1_517:
+	VZEROUPPER
+	RET
+
+LBB1_548:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc6     // mov    r14, rax
+	LONG $0x05eec149             // shr    r14, 5
+	LONG $0x01c68349             // add    r14, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_578
+	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
+	LONG $0xfee38348             // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	WORD $0xc031                 // xor    eax, eax
+
+LBB1_550:
+	LONG $0x0c6ffec5; BYTE $0x82               // vmovdqu    ymm1, yword [rdx + 4*rax]
+	LONG $0x546ffec5; WORD $0x2082             // vmovdqu    ymm2, yword [rdx + 4*rax + 32]
+	LONG $0x5c6ffec5; WORD $0x4082             // vmovdqu    ymm3, yword [rdx + 4*rax + 64]
+	LONG $0x646ffec5; WORD $0x6082             // vmovdqu    ymm4, yword [rdx + 4*rax + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x800c             // vmovdqu    yword [r8 + 4*rax], ymm1
+	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x8064; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm4
+	QUAD $0x000080828c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rax + 128]
+	QUAD $0x0000a082946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rax + 160]
+	QUAD $0x0000c0829c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rax + 192]
+	QUAD $0x0000e082a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rax + 224]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	QUAD $0x0080808c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rax + 128], ymm1
+	QUAD $0x00a080947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rax + 160], ymm2
+	QUAD $0x00c0809c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rax + 192], ymm3
+	QUAD $0x00e080a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rax + 224], ymm4
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB1_550
+	JMP  LBB1_579
+
+LBB1_551:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_586
+	WORD $0x894c; BYTE $0xdb     // mov    rbx, r11
+	LONG $0xfee38348             // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	WORD $0xc031                 // xor    eax, eax
+
+LBB1_553:
+	LONG $0x1410fdc5; BYTE $0xc2               // vmovupd    ymm2, yword [rdx + 8*rax]
+	LONG $0x5c10fdc5; WORD $0x20c2             // vmovupd    ymm3, yword [rdx + 8*rax + 32]
+	LONG $0x6410fdc5; WORD $0x40c2             // vmovupd    ymm4, yword [rdx + 8*rax + 64]
+	LONG $0x6c10fdc5; WORD $0x60c2             // vmovupd    ymm5, yword [rdx + 8*rax + 96]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
+	LONG $0x117dc1c4; WORD $0xc014             // vmovupd    yword [r8 + 8*rax], ymm2
+	LONG $0x117dc1c4; WORD $0xc05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rax + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xc064; BYTE $0x40 // vmovupd    yword [r8 + 8*rax + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xc06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rax + 96], ymm5
+	QUAD $0x000080c29410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + 8*rax + 128]
+	QUAD $0x0000a0c29c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + 8*rax + 160]
+	QUAD $0x0000c0c2a410fdc5; BYTE $0x00       // vmovupd    ymm4, yword [rdx + 8*rax + 192]
+	QUAD $0x0000e0c2ac10fdc5; BYTE $0x00       // vmovupd    ymm5, yword [rdx + 8*rax + 224]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
+	QUAD $0x0080c094117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rax + 128], ymm2
+	QUAD $0x00a0c09c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rax + 160], ymm3
+	QUAD $0x00c0c0a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rax + 192], ymm4
+	QUAD $0x00e0c0ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rax + 224], ymm5
+	LONG $0x20c08348                           // add    rax, 32
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB1_553
+	JMP  LBB1_587
+
+LBB1_554:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80468d48             // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc6     // mov    r14, rax
+	LONG $0x07eec149             // shr    r14, 7
+	LONG $0x01c68349             // add    r14, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_594
+	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
+	LONG $0xfee38348             // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	WORD $0xc031                 // xor    eax, eax
+
+LBB1_556:
+	LONG $0x0c6ffec5; BYTE $0x02               // vmovdqu    ymm1, yword [rdx + rax]
+	LONG $0x546ffec5; WORD $0x2002             // vmovdqu    ymm2, yword [rdx + rax + 32]
+	LONG $0x5c6ffec5; WORD $0x4002             // vmovdqu    ymm3, yword [rdx + rax + 64]
+	LONG $0x646ffec5; WORD $0x6002             // vmovdqu    ymm4, yword [rdx + rax + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x000c             // vmovdqu    yword [r8 + rax], ymm1
+	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x0064; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm4
+	QUAD $0x000080028c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rax + 128]
+	QUAD $0x0000a002946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rax + 160]
+	QUAD $0x0000c0029c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rax + 192]
+	QUAD $0x0000e002a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rax + 224]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	QUAD $0x0080008c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rax + 128], ymm1
+	QUAD $0x00a000947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rax + 160], ymm2
+	QUAD $0x00c0009c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rax + 192], ymm3
+	QUAD $0x00e000a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rax + 224], ymm4
+	LONG $0x01000548; WORD $0x0000             // add    rax, 256
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB1_556
+	JMP  LBB1_595
+
+LBB1_557:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc6     // mov    r14, rax
+	LONG $0x04eec149             // shr    r14, 4
+	LONG $0x01c68349             // add    r14, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_602
+	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
+	LONG $0xfee38348             // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	WORD $0xc031                 // xor    eax, eax
+
+LBB1_559:
+	LONG $0x0c6ffec5; BYTE $0xc2               // vmovdqu    ymm1, yword [rdx + 8*rax]
+	LONG $0x546ffec5; WORD $0x20c2             // vmovdqu    ymm2, yword [rdx + 8*rax + 32]
+	LONG $0x5c6ffec5; WORD $0x40c2             // vmovdqu    ymm3, yword [rdx + 8*rax + 64]
+	LONG $0x646ffec5; WORD $0x60c2             // vmovdqu    ymm4, yword [rdx + 8*rax + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xc00c             // vmovdqu    yword [r8 + 8*rax], ymm1
+	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xc064; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm4
+	QUAD $0x000080c28c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rax + 128]
+	QUAD $0x0000a0c2946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rax + 160]
+	QUAD $0x0000c0c29c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rax + 192]
+	QUAD $0x0000e0c2a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rax + 224]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	QUAD $0x0080c08c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rax + 128], ymm1
+	QUAD $0x00a0c0947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rax + 160], ymm2
+	QUAD $0x00c0c09c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rax + 192], ymm3
+	QUAD $0x00e0c0a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rax + 224], ymm4
+	LONG $0x20c08348                           // add    rax, 32
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB1_559
+	JMP  LBB1_603
+
+LBB1_560:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_610
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_562:
+	LONG $0x0c6ffec5; BYTE $0x5a               // vmovdqu    ymm1, yword [rdx + 2*rbx]
+	LONG $0x546ffec5; WORD $0x205a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
+	LONG $0x4c6ffec5; WORD $0x405a             // vmovdqu    ymm1, yword [rdx + 2*rbx + 64]
+	LONG $0x546ffec5; WORD $0x605a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 96]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_562
+	JMP  LBB1_611
+
+LBB1_563:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_618
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_565:
+	LONG $0x0c6ffec5; BYTE $0x5a               // vmovdqu    ymm1, yword [rdx + 2*rbx]
+	LONG $0x546ffec5; WORD $0x205a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
+	LONG $0x4c6ffec5; WORD $0x405a             // vmovdqu    ymm1, yword [rdx + 2*rbx + 64]
+	LONG $0x546ffec5; WORD $0x605a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 96]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_565
+	JMP  LBB1_619
+
+LBB1_566:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc6     // mov    r14, rax
+	LONG $0x04eec149             // shr    r14, 4
+	LONG $0x01c68349             // add    r14, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_626
+	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
+	LONG $0xfee38348             // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	WORD $0xc031                 // xor    eax, eax
+
+LBB1_568:
+	LONG $0x0c6ffec5; BYTE $0xc2               // vmovdqu    ymm1, yword [rdx + 8*rax]
+	LONG $0x546ffec5; WORD $0x20c2             // vmovdqu    ymm2, yword [rdx + 8*rax + 32]
+	LONG $0x5c6ffec5; WORD $0x40c2             // vmovdqu    ymm3, yword [rdx + 8*rax + 64]
+	LONG $0x646ffec5; WORD $0x60c2             // vmovdqu    ymm4, yword [rdx + 8*rax + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xc00c             // vmovdqu    yword [r8 + 8*rax], ymm1
+	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xc064; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm4
+	QUAD $0x000080c28c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rax + 128]
+	QUAD $0x0000a0c2946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rax + 160]
+	QUAD $0x0000c0c29c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rax + 192]
+	QUAD $0x0000e0c2a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rax + 224]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	QUAD $0x0080c08c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rax + 128], ymm1
+	QUAD $0x00a0c0947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rax + 160], ymm2
+	QUAD $0x00c0c09c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rax + 192], ymm3
+	QUAD $0x00e0c0a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rax + 224], ymm4
+	LONG $0x20c08348                           // add    rax, 32
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB1_568
+	JMP  LBB1_627
+
+LBB1_569:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_634
+	WORD $0x894c; BYTE $0xdb     // mov    rbx, r11
+	LONG $0xfee38348             // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	WORD $0xc031                 // xor    eax, eax
+
+LBB1_571:
+	LONG $0x1410fcc5; BYTE $0x82               // vmovups    ymm2, yword [rdx + 4*rax]
+	LONG $0x5c10fcc5; WORD $0x2082             // vmovups    ymm3, yword [rdx + 4*rax + 32]
+	LONG $0x6410fcc5; WORD $0x4082             // vmovups    ymm4, yword [rdx + 4*rax + 64]
+	LONG $0x6c10fcc5; WORD $0x6082             // vmovups    ymm5, yword [rdx + 4*rax + 96]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
+	LONG $0x117cc1c4; WORD $0x8014             // vmovups    yword [r8 + 4*rax], ymm2
+	LONG $0x117cc1c4; WORD $0x805c; BYTE $0x20 // vmovups    yword [r8 + 4*rax + 32], ymm3
+	LONG $0x117cc1c4; WORD $0x8064; BYTE $0x40 // vmovups    yword [r8 + 4*rax + 64], ymm4
+	LONG $0x117cc1c4; WORD $0x806c; BYTE $0x60 // vmovups    yword [r8 + 4*rax + 96], ymm5
+	QUAD $0x000080829410fcc5; BYTE $0x00       // vmovups    ymm2, yword [rdx + 4*rax + 128]
+	QUAD $0x0000a0829c10fcc5; BYTE $0x00       // vmovups    ymm3, yword [rdx + 4*rax + 160]
+	QUAD $0x0000c082a410fcc5; BYTE $0x00       // vmovups    ymm4, yword [rdx + 4*rax + 192]
+	QUAD $0x0000e082ac10fcc5; BYTE $0x00       // vmovups    ymm5, yword [rdx + 4*rax + 224]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
+	QUAD $0x00808094117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rax + 128], ymm2
+	QUAD $0x00a0809c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rax + 160], ymm3
+	QUAD $0x00c080a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rax + 192], ymm4
+	QUAD $0x00e080ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rax + 224], ymm5
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB1_571
+	JMP  LBB1_635
+
+LBB1_572:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80468d48             // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc6     // mov    r14, rax
+	LONG $0x07eec149             // shr    r14, 7
+	LONG $0x01c68349             // add    r14, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_642
+	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
+	LONG $0xfee38348             // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	WORD $0xc031                 // xor    eax, eax
+
+LBB1_574:
+	LONG $0x0c6ffec5; BYTE $0x02               // vmovdqu    ymm1, yword [rdx + rax]
+	LONG $0x546ffec5; WORD $0x2002             // vmovdqu    ymm2, yword [rdx + rax + 32]
+	LONG $0x5c6ffec5; WORD $0x4002             // vmovdqu    ymm3, yword [rdx + rax + 64]
+	LONG $0x646ffec5; WORD $0x6002             // vmovdqu    ymm4, yword [rdx + rax + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x000c             // vmovdqu    yword [r8 + rax], ymm1
+	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x0064; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm4
+	QUAD $0x000080028c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rax + 128]
+	QUAD $0x0000a002946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rax + 160]
+	QUAD $0x0000c0029c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rax + 192]
+	QUAD $0x0000e002a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rax + 224]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	QUAD $0x0080008c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rax + 128], ymm1
+	QUAD $0x00a000947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rax + 160], ymm2
+	QUAD $0x00c0009c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rax + 192], ymm3
+	QUAD $0x00e000a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rax + 224], ymm4
+	LONG $0x01000548; WORD $0x0000             // add    rax, 256
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB1_574
+	JMP  LBB1_643
+
+LBB1_575:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc6     // mov    r14, rax
+	LONG $0x05eec149             // shr    r14, 5
+	LONG $0x01c68349             // add    r14, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_650
+	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
+	LONG $0xfee38348             // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	WORD $0xc031                 // xor    eax, eax
+
+LBB1_577:
+	LONG $0x0c6ffec5; BYTE $0x82               // vmovdqu    ymm1, yword [rdx + 4*rax]
+	LONG $0x546ffec5; WORD $0x2082             // vmovdqu    ymm2, yword [rdx + 4*rax + 32]
+	LONG $0x5c6ffec5; WORD $0x4082             // vmovdqu    ymm3, yword [rdx + 4*rax + 64]
+	LONG $0x646ffec5; WORD $0x6082             // vmovdqu    ymm4, yword [rdx + 4*rax + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x800c             // vmovdqu    yword [r8 + 4*rax], ymm1
+	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x8064; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm4
+	QUAD $0x000080828c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rax + 128]
+	QUAD $0x0000a082946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rax + 160]
+	QUAD $0x0000c0829c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rax + 192]
+	QUAD $0x0000e082a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rax + 224]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	QUAD $0x0080808c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rax + 128], ymm1
+	QUAD $0x00a080947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rax + 160], ymm2
+	QUAD $0x00c0809c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rax + 192], ymm3
+	QUAD $0x00e080a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rax + 224], ymm4
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB1_577
+	JMP  LBB1_651
+
+LBB1_578:
+	WORD $0xc031 // xor    eax, eax
+
+LBB1_579:
+	LONG $0x01c6f641                           // test    r14b, 1
+	JE   LBB1_581
+	LONG $0x0c6ffec5; BYTE $0x82               // vmovdqu    ymm1, yword [rdx + 4*rax]
+	LONG $0x546ffec5; WORD $0x2082             // vmovdqu    ymm2, yword [rdx + 4*rax + 32]
+	LONG $0x5c6ffec5; WORD $0x4082             // vmovdqu    ymm3, yword [rdx + 4*rax + 64]
+	LONG $0x646ffec5; WORD $0x6082             // vmovdqu    ymm4, yword [rdx + 4*rax + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x800c             // vmovdqu    yword [r8 + 4*rax], ymm1
+	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x8044; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm0
+
+LBB1_581:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_582
+
+LBB1_586:
+	WORD $0xc031 // xor    eax, eax
+
+LBB1_587:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_589
+	LONG $0x1410fdc5; BYTE $0xc2               // vmovupd    ymm2, yword [rdx + 8*rax]
+	LONG $0x5c10fdc5; WORD $0x20c2             // vmovupd    ymm3, yword [rdx + 8*rax + 32]
+	LONG $0x6410fdc5; WORD $0x40c2             // vmovupd    ymm4, yword [rdx + 8*rax + 64]
+	LONG $0x6c10fdc5; WORD $0x60c2             // vmovupd    ymm5, yword [rdx + 8*rax + 96]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xc95cd5c5                           // vsubpd    ymm1, ymm5, ymm1
+	LONG $0x117dc1c4; WORD $0xc014             // vmovupd    yword [r8 + 8*rax], ymm2
+	LONG $0x117dc1c4; WORD $0xc05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rax + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xc064; BYTE $0x40 // vmovupd    yword [r8 + 8*rax + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xc04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rax + 96], ymm1
+
+LBB1_589:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_590
+
+LBB1_594:
+	WORD $0xc031 // xor    eax, eax
+
+LBB1_595:
+	LONG $0x01c6f641                           // test    r14b, 1
+	JE   LBB1_597
+	LONG $0x0c6ffec5; BYTE $0x02               // vmovdqu    ymm1, yword [rdx + rax]
+	LONG $0x546ffec5; WORD $0x2002             // vmovdqu    ymm2, yword [rdx + rax + 32]
+	LONG $0x5c6ffec5; WORD $0x4002             // vmovdqu    ymm3, yword [rdx + rax + 64]
+	LONG $0x646ffec5; WORD $0x6002             // vmovdqu    ymm4, yword [rdx + rax + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x000c             // vmovdqu    yword [r8 + rax], ymm1
+	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x0044; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm0
+
+LBB1_597:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_598
+
+LBB1_602:
+	WORD $0xc031 // xor    eax, eax
+
+LBB1_603:
+	LONG $0x01c6f641                           // test    r14b, 1
+	JE   LBB1_605
+	LONG $0x0c6ffec5; BYTE $0xc2               // vmovdqu    ymm1, yword [rdx + 8*rax]
+	LONG $0x546ffec5; WORD $0x20c2             // vmovdqu    ymm2, yword [rdx + 8*rax + 32]
+	LONG $0x5c6ffec5; WORD $0x40c2             // vmovdqu    ymm3, yword [rdx + 8*rax + 64]
+	LONG $0x646ffec5; WORD $0x60c2             // vmovdqu    ymm4, yword [rdx + 8*rax + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xc00c             // vmovdqu    yword [r8 + 8*rax], ymm1
+	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xc044; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm0
+
+LBB1_605:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_606
+
+LBB1_610:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_611:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_613
+	LONG $0x0c6ffec5; BYTE $0x5a               // vmovdqu    ymm1, yword [rdx + 2*rbx]
+	LONG $0x546ffec5; WORD $0x205a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+
+LBB1_613:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_614
+
+LBB1_618:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_619:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_621
+	LONG $0x0c6ffec5; BYTE $0x5a               // vmovdqu    ymm1, yword [rdx + 2*rbx]
+	LONG $0x546ffec5; WORD $0x205a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+
+LBB1_621:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_622
+
+LBB1_626:
+	WORD $0xc031 // xor    eax, eax
+
+LBB1_627:
+	LONG $0x01c6f641                           // test    r14b, 1
+	JE   LBB1_629
+	LONG $0x0c6ffec5; BYTE $0xc2               // vmovdqu    ymm1, yword [rdx + 8*rax]
+	LONG $0x546ffec5; WORD $0x20c2             // vmovdqu    ymm2, yword [rdx + 8*rax + 32]
+	LONG $0x5c6ffec5; WORD $0x40c2             // vmovdqu    ymm3, yword [rdx + 8*rax + 64]
+	LONG $0x646ffec5; WORD $0x60c2             // vmovdqu    ymm4, yword [rdx + 8*rax + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xc00c             // vmovdqu    yword [r8 + 8*rax], ymm1
+	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xc044; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm0
+
+LBB1_629:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_630
+
+LBB1_634:
+	WORD $0xc031 // xor    eax, eax
+
+LBB1_635:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_637
+	LONG $0x1410fcc5; BYTE $0x82               // vmovups    ymm2, yword [rdx + 4*rax]
+	LONG $0x5c10fcc5; WORD $0x2082             // vmovups    ymm3, yword [rdx + 4*rax + 32]
+	LONG $0x6410fcc5; WORD $0x4082             // vmovups    ymm4, yword [rdx + 4*rax + 64]
+	LONG $0x6c10fcc5; WORD $0x6082             // vmovups    ymm5, yword [rdx + 4*rax + 96]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xc95cd4c5                           // vsubps    ymm1, ymm5, ymm1
+	LONG $0x117cc1c4; WORD $0x8014             // vmovups    yword [r8 + 4*rax], ymm2
+	LONG $0x117cc1c4; WORD $0x805c; BYTE $0x20 // vmovups    yword [r8 + 4*rax + 32], ymm3
+	LONG $0x117cc1c4; WORD $0x8064; BYTE $0x40 // vmovups    yword [r8 + 4*rax + 64], ymm4
+	LONG $0x117cc1c4; WORD $0x804c; BYTE $0x60 // vmovups    yword [r8 + 4*rax + 96], ymm1
+
+LBB1_637:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_638
+
+LBB1_642:
+	WORD $0xc031 // xor    eax, eax
+
+LBB1_643:
+	LONG $0x01c6f641                           // test    r14b, 1
+	JE   LBB1_645
+	LONG $0x0c6ffec5; BYTE $0x02               // vmovdqu    ymm1, yword [rdx + rax]
+	LONG $0x546ffec5; WORD $0x2002             // vmovdqu    ymm2, yword [rdx + rax + 32]
+	LONG $0x5c6ffec5; WORD $0x4002             // vmovdqu    ymm3, yword [rdx + rax + 64]
+	LONG $0x646ffec5; WORD $0x6002             // vmovdqu    ymm4, yword [rdx + rax + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x000c             // vmovdqu    yword [r8 + rax], ymm1
+	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x0044; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm0
+
+LBB1_645:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_646
+
+LBB1_650:
+	WORD $0xc031 // xor    eax, eax
+
+LBB1_651:
+	LONG $0x01c6f641                           // test    r14b, 1
+	JE   LBB1_653
+	LONG $0x0c6ffec5; BYTE $0x82               // vmovdqu    ymm1, yword [rdx + 4*rax]
+	LONG $0x546ffec5; WORD $0x2082             // vmovdqu    ymm2, yword [rdx + 4*rax + 32]
+	LONG $0x5c6ffec5; WORD $0x4082             // vmovdqu    ymm3, yword [rdx + 4*rax + 64]
+	LONG $0x646ffec5; WORD $0x6082             // vmovdqu    ymm4, yword [rdx + 4*rax + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x800c             // vmovdqu    yword [r8 + 4*rax], ymm1
+	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x8044; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm0
+
+LBB1_653:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_654
+
+LBB1_658:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_659:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_661
+	LONG $0x0cfefdc5; BYTE $0x9a               // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx]
+	LONG $0x54fefdc5; WORD $0x209a             // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 32]
+	LONG $0x5cfefdc5; WORD $0x409a             // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 64]
+	LONG $0x44fefdc5; WORD $0x609a             // vpaddd    ymm0, ymm0, yword [rdx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+
+LBB1_661:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_3
+	JMP  LBB1_662
+
+LBB1_666:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_667:
+	LONG $0x01c2f641                           // test    r10b, 1
+	JE   LBB1_669
+	LONG $0x1458f5c5; BYTE $0xda               // vaddpd    ymm2, ymm1, yword [rdx + 8*rbx]
+	LONG $0x5c58f5c5; WORD $0x20da             // vaddpd    ymm3, ymm1, yword [rdx + 8*rbx + 32]
+	LONG $0x6458f5c5; WORD $0x40da             // vaddpd    ymm4, ymm1, yword [rdx + 8*rbx + 64]
+	LONG $0x4c58f5c5; WORD $0x60da             // vaddpd    ymm1, ymm1, yword [rdx + 8*rbx + 96]
+	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
+	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xd84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm1
+
+LBB1_669:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB1_3
+	JMP  LBB1_670
+
+LBB1_674:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_675:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_677
+	LONG $0x0cfcfdc5; BYTE $0x1a               // vpaddb    ymm1, ymm0, yword [rdx + rbx]
+	LONG $0x54fcfdc5; WORD $0x201a             // vpaddb    ymm2, ymm0, yword [rdx + rbx + 32]
+	LONG $0x5cfcfdc5; WORD $0x401a             // vpaddb    ymm3, ymm0, yword [rdx + rbx + 64]
+	LONG $0x44fcfdc5; WORD $0x601a             // vpaddb    ymm0, ymm0, yword [rdx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+
+LBB1_677:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_3
+	JMP  LBB1_678
+
+LBB1_682:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_683:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_685
+	LONG $0x0cd4fdc5; BYTE $0xda               // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx]
+	LONG $0x54d4fdc5; WORD $0x20da             // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 32]
+	LONG $0x5cd4fdc5; WORD $0x40da             // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 64]
+	LONG $0x44d4fdc5; WORD $0x60da             // vpaddq    ymm0, ymm0, yword [rdx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+
+LBB1_685:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_3
+	JMP  LBB1_686
+
+LBB1_690:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_691:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_693
+	LONG $0x0cfdfdc5; BYTE $0x5a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx]
+	LONG $0x44fdfdc5; WORD $0x205a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+
+LBB1_693:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_3
+	JMP  LBB1_694
+
+LBB1_698:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_699:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_701
+	LONG $0x0cfdfdc5; BYTE $0x5a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx]
+	LONG $0x44fdfdc5; WORD $0x205a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+
+LBB1_701:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_3
+	JMP  LBB1_702
+
+LBB1_706:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_707:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_709
+	LONG $0x0cd4fdc5; BYTE $0xda               // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx]
+	LONG $0x54d4fdc5; WORD $0x20da             // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 32]
+	LONG $0x5cd4fdc5; WORD $0x40da             // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 64]
+	LONG $0x44d4fdc5; WORD $0x60da             // vpaddq    ymm0, ymm0, yword [rdx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+
+LBB1_709:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_3
+	JMP  LBB1_710
+
+LBB1_714:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_715:
+	LONG $0x01c2f641                           // test    r10b, 1
+	JE   LBB1_717
+	LONG $0x1458f4c5; BYTE $0x9a               // vaddps    ymm2, ymm1, yword [rdx + 4*rbx]
+	LONG $0x5c58f4c5; WORD $0x209a             // vaddps    ymm3, ymm1, yword [rdx + 4*rbx + 32]
+	LONG $0x6458f4c5; WORD $0x409a             // vaddps    ymm4, ymm1, yword [rdx + 4*rbx + 64]
+	LONG $0x4c58f4c5; WORD $0x609a             // vaddps    ymm1, ymm1, yword [rdx + 4*rbx + 96]
+	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
+	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
+	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
+	LONG $0x117cc1c4; WORD $0x984c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm1
+
+LBB1_717:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB1_3
+	JMP  LBB1_718
+
+LBB1_722:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_723:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_725
+	LONG $0x0cfcfdc5; BYTE $0x1a               // vpaddb    ymm1, ymm0, yword [rdx + rbx]
+	LONG $0x54fcfdc5; WORD $0x201a             // vpaddb    ymm2, ymm0, yword [rdx + rbx + 32]
+	LONG $0x5cfcfdc5; WORD $0x401a             // vpaddb    ymm3, ymm0, yword [rdx + rbx + 64]
+	LONG $0x44fcfdc5; WORD $0x601a             // vpaddb    ymm0, ymm0, yword [rdx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+
+LBB1_725:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_3
+	JMP  LBB1_726
+
+LBB1_730:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_731:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_733
+	LONG $0x0cfefdc5; BYTE $0x9a               // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx]
+	LONG $0x54fefdc5; WORD $0x209a             // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 32]
+	LONG $0x5cfefdc5; WORD $0x409a             // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 64]
+	LONG $0x44fefdc5; WORD $0x609a             // vpaddd    ymm0, ymm0, yword [rdx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+
+LBB1_733:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_3
+	JMP  LBB1_734
+
+TEXT ·_arithmetic_scalar_arr_avx2(SB), $0-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ op+8(FP), SI
+	MOVQ inLeft+16(FP), DX
+	MOVQ inRight+24(FP), CX
+	MOVQ out+32(FP), R8
+	MOVQ len+40(FP), R9
+
+	LONG $0x01fe8040         // cmp    sil, 1
+	JG   LBB2_11
+	WORD $0x8440; BYTE $0xf6 // test    sil, sil
+	JE   LBB2_28
+	LONG $0x01fe8040         // cmp    sil, 1
+	JNE  LBB2_517
+
+LBB2_3:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_36
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_60
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_98
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_101
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_474
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_10
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_254
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_254
+
+LBB2_10:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_398:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_400
+
+LBB2_399:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_399
+
+LBB2_400:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_474
+
+LBB2_401:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_401
+	JMP  LBB2_474
+
+LBB2_11:
+	LONG $0x02fe8040 // cmp    sil, 2
+	JE   LBB2_474
+	LONG $0x03fe8040 // cmp    sil, 3
+	JNE  LBB2_517
+
+LBB2_13:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_21
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_50
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_70
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_73
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_517
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_20
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_194
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_194
+
+LBB2_20:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_318:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_320
+
+LBB2_319:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc28348         // add    rdx, -1
+	JNE  LBB2_319
+
+LBB2_320:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB2_517
+
+LBB2_321:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_321
+	JMP  LBB2_517
+
+LBB2_21:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_55
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_76
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_79
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_517
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_27
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_197
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_197
+
+LBB2_27:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_326:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_328
+
+LBB2_327:
+	LONG $0x0c5cfbc5; BYTE $0xd1   // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_327
+
+LBB2_328:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_517
+
+LBB2_329:
+	LONG $0x0c5cfbc5; BYTE $0xd1               // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x4c5cfbc5; WORD $0x08d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x4c5cfbc5; WORD $0x10d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x4c5cfbc5; WORD $0x18d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_329
+	JMP  LBB2_517
+
+LBB2_28:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_43
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_88
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_116
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_119
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_3
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_35
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_284
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_284
+
+LBB2_35:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_662:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_664
+
+LBB2_663:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_663
+
+LBB2_664:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_3
+
+LBB2_665:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_665
+	JMP  LBB2_3
+
+LBB2_36:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_65
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_104
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_107
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_474
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_42
+	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_257
+	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_257
+
+LBB2_42:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_406:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_408
+
+LBB2_407:
+	LONG $0x0c58fbc5; BYTE $0xf1   // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf00c // vmovsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB2_407
+
+LBB2_408:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB2_474
+
+LBB2_409:
+	LONG $0x0c58fbc5; BYTE $0xf1               // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf00c             // vmovsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x4c58fbc5; WORD $0x08f1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0x4c58fbc5; WORD $0x10f1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0x4c58fbc5; WORD $0x18f1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB2_409
+	JMP  LBB2_474
+
+LBB2_43:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_93
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_122
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_125
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_3
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_49
+	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_287
+	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_287
+
+LBB2_49:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_670:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_672
+
+LBB2_671:
+	LONG $0x0c58fbc5; BYTE $0xf1   // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf00c // vmovsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB2_671
+
+LBB2_672:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB2_3
+
+LBB2_673:
+	LONG $0x0c58fbc5; BYTE $0xf1               // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf00c             // vmovsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x4c58fbc5; WORD $0x08f1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0x4c58fbc5; WORD $0x10f1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0x4c58fbc5; WORD $0x18f1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB2_673
+	JMP  LBB2_3
+
+LBB2_50:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB2_82
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB2_517
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x028a                               // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_54
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_200
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_200
+
+LBB2_54:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_334:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_336
+
+LBB2_335:
+	WORD $0xc389             // mov    ebx, eax
+	WORD $0x1c2a; BYTE $0x31 // sub    bl, byte [rcx + rsi]
+	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc28348         // add    rdx, -1
+	JNE  LBB2_335
+
+LBB2_336:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB2_517
+
+LBB2_337:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_337
+	JMP  LBB2_517
+
+LBB2_55:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_85
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_517
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_59
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_203
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_203
+
+LBB2_59:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_342:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_344
+
+LBB2_343:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc28348         // add    rdx, -1
+	JNE  LBB2_343
+
+LBB2_344:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB2_517
+
+LBB2_345:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_345
+	JMP  LBB2_517
+
+LBB2_60:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB2_110
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB2_474
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8a44; BYTE $0x32                   // mov    r14b, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_64
+	LONG $0x11048d4a                           // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
+	JBE  LBB2_260
+	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JBE  LBB2_260
+
+LBB2_64:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_414:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_416
+
+LBB2_415:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0044; BYTE $0xf0 // add    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_415
+
+LBB2_416:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_474
+
+LBB2_417:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_417
+	JMP  LBB2_474
+
+LBB2_65:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_113
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_474
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_69
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_263
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_263
+
+LBB2_69:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_422:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_424
+
+LBB2_423:
+	LONG $0xf1048b48         // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_423
+
+LBB2_424:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_474
+
+LBB2_425:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_425
+	JMP  LBB2_474
+
+LBB2_70:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_72
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_206
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_206
+
+LBB2_72:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_350:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_352
+
+LBB2_351:
+	WORD $0xc389                 // mov    ebx, eax
+	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_351
+
+LBB2_352:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB2_517
+
+LBB2_353:
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_353
+	JMP  LBB2_517
+
+LBB2_73:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_75
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_209
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_209
+
+LBB2_75:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_358:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_360
+
+LBB2_359:
+	WORD $0xc389                 // mov    ebx, eax
+	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_359
+
+LBB2_360:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB2_517
+
+LBB2_361:
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_361
+	JMP  LBB2_517
+
+LBB2_76:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_78
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_212
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_212
+
+LBB2_78:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_366:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_368
+
+LBB2_367:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc28348         // add    rdx, -1
+	JNE  LBB2_367
+
+LBB2_368:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB2_517
+
+LBB2_369:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_369
+	JMP  LBB2_517
+
+LBB2_79:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_81
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_215
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_215
+
+LBB2_81:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_374:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_376
+
+LBB2_375:
+	LONG $0x0c5cfac5; BYTE $0x91   // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_375
+
+LBB2_376:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_517
+
+LBB2_377:
+	LONG $0x0c5cfac5; BYTE $0x91               // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c5cfac5; WORD $0x0491             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x4c5cfac5; WORD $0x0891             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x4c5cfac5; WORD $0x0c91             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_377
+	JMP  LBB2_517
+
+LBB2_82:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x028a                               // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_84
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_218
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_218
+
+LBB2_84:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_382:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_384
+
+LBB2_383:
+	WORD $0xc389             // mov    ebx, eax
+	WORD $0x1c2a; BYTE $0x31 // sub    bl, byte [rcx + rsi]
+	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc28348         // add    rdx, -1
+	JNE  LBB2_383
+
+LBB2_384:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB2_517
+
+LBB2_385:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_385
+	JMP  LBB2_517
+
+LBB2_85:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_87
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_221
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_221
+
+LBB2_87:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_390:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_392
+
+LBB2_391:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc28348         // add    rdx, -1
+	JNE  LBB2_391
+
+LBB2_392:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB2_517
+
+LBB2_393:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_393
+	JMP  LBB2_517
+
+LBB2_88:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB2_128
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB2_3
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8a44; BYTE $0x32                   // mov    r14b, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_92
+	LONG $0x11048d4a                           // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
+	JBE  LBB2_290
+	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JBE  LBB2_290
+
+LBB2_92:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_678:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_680
+
+LBB2_679:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0044; BYTE $0xf0 // add    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_679
+
+LBB2_680:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_3
+
+LBB2_681:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_681
+	JMP  LBB2_3
+
+LBB2_93:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_131
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_3
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_97
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_293
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_293
+
+LBB2_97:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_686:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_688
+
+LBB2_687:
+	LONG $0xf1048b48         // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_687
+
+LBB2_688:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_3
+
+LBB2_689:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_689
+	JMP  LBB2_3
+
+LBB2_98:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x32b70f44         // movzx    r14d, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_100
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_266
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_266
+
+LBB2_100:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_430:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB2_432
+
+LBB2_431:
+	LONG $0x711cb70f             // movzx    ebx, word [rcx + 2*rsi]
+	LONG $0xf3014466             // add    bx, r14w
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB2_431
+
+LBB2_432:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_474
+
+LBB2_433:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_433
+	JMP  LBB2_474
+
+LBB2_101:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x32b70f44         // movzx    r14d, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_103
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_269
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_269
+
+LBB2_103:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_438:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB2_440
+
+LBB2_439:
+	LONG $0x711cb70f             // movzx    ebx, word [rcx + 2*rsi]
+	LONG $0xf3014466             // add    bx, r14w
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB2_439
+
+LBB2_440:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_474
+
+LBB2_441:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_441
+	JMP  LBB2_474
+
+LBB2_104:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_106
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_272
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_272
+
+LBB2_106:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_446:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_448
+
+LBB2_447:
+	LONG $0xf1048b48         // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_447
+
+LBB2_448:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_474
+
+LBB2_449:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_449
+	JMP  LBB2_474
+
+LBB2_107:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_109
+	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_275
+	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_275
+
+LBB2_109:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_454:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_456
+
+LBB2_455:
+	LONG $0x0c58fac5; BYTE $0xb1   // vaddss    xmm1, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb00c // vmovss    dword [r8 + 4*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB2_455
+
+LBB2_456:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB2_474
+
+LBB2_457:
+	LONG $0x0c58fac5; BYTE $0xb1               // vaddss    xmm1, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb00c             // vmovss    dword [r8 + 4*rsi], xmm1
+	LONG $0x4c58fac5; WORD $0x04b1             // vaddss    xmm1, xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm1
+	LONG $0x4c58fac5; WORD $0x08b1             // vaddss    xmm1, xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm1
+	LONG $0x4c58fac5; WORD $0x0cb1             // vaddss    xmm1, xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB2_457
+	JMP  LBB2_474
+
+LBB2_110:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8a44; BYTE $0x32                   // mov    r14b, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_112
+	LONG $0x11048d4a                           // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
+	JBE  LBB2_278
+	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JBE  LBB2_278
+
+LBB2_112:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_462:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_464
+
+LBB2_463:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0044; BYTE $0xf0 // add    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_463
+
+LBB2_464:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_474
+
+LBB2_465:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_465
+	JMP  LBB2_474
+
+LBB2_113:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_115
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_281
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_281
+
+LBB2_115:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_470:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_472
+
+LBB2_471:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_471
+
+LBB2_472:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_474
+
+LBB2_473:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_473
+	JMP  LBB2_474
+
+LBB2_116:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x32b70f44         // movzx    r14d, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_118
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_296
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_296
+
+LBB2_118:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_694:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB2_696
+
+LBB2_695:
+	LONG $0x711cb70f             // movzx    ebx, word [rcx + 2*rsi]
+	LONG $0xf3014466             // add    bx, r14w
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB2_695
+
+LBB2_696:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_3
+
+LBB2_697:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_697
+	JMP  LBB2_3
+
+LBB2_119:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x32b70f44         // movzx    r14d, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_121
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_299
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_299
+
+LBB2_121:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_702:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB2_704
+
+LBB2_703:
+	LONG $0x711cb70f             // movzx    ebx, word [rcx + 2*rsi]
+	LONG $0xf3014466             // add    bx, r14w
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB2_703
+
+LBB2_704:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_3
+
+LBB2_705:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_705
+	JMP  LBB2_3
+
+LBB2_122:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_124
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_302
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_302
+
+LBB2_124:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_710:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_712
+
+LBB2_711:
+	LONG $0xf1048b48         // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_711
+
+LBB2_712:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_3
+
+LBB2_713:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_713
+	JMP  LBB2_3
+
+LBB2_125:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_127
+	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_305
+	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_305
+
+LBB2_127:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_718:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_720
+
+LBB2_719:
+	LONG $0x0c58fac5; BYTE $0xb1   // vaddss    xmm1, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb00c // vmovss    dword [r8 + 4*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB2_719
+
+LBB2_720:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB2_3
+
+LBB2_721:
+	LONG $0x0c58fac5; BYTE $0xb1               // vaddss    xmm1, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb00c             // vmovss    dword [r8 + 4*rsi], xmm1
+	LONG $0x4c58fac5; WORD $0x04b1             // vaddss    xmm1, xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm1
+	LONG $0x4c58fac5; WORD $0x08b1             // vaddss    xmm1, xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm1
+	LONG $0x4c58fac5; WORD $0x0cb1             // vaddss    xmm1, xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB2_721
+	JMP  LBB2_3
+
+LBB2_128:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8a44; BYTE $0x32                   // mov    r14b, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_130
+	LONG $0x11048d4a                           // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
+	JBE  LBB2_308
+	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JBE  LBB2_308
+
+LBB2_130:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_726:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_728
+
+LBB2_727:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0044; BYTE $0xf0 // add    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_727
+
+LBB2_728:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_3
+
+LBB2_729:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_729
+	JMP  LBB2_3
+
+LBB2_131:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_133
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_311
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_311
+
+LBB2_133:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_734:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_736
+
+LBB2_735:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_735
+
+LBB2_736:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_3
+
+LBB2_737:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_737
+	JMP  LBB2_3
+
+LBB2_194:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_314
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_196:
+	LONG $0x0cfafdc5; BYTE $0x99               // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx]
+	LONG $0x54fafdc5; WORD $0x2099             // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
+	LONG $0x5cfafdc5; WORD $0x4099             // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
+	LONG $0x64fafdc5; WORD $0x6099             // vpsubd    ymm4, ymm0, yword [rcx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
+	QUAD $0x000080998cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx + 128]
+	QUAD $0x0000a09994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 160]
+	QUAD $0x0000c0999cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 192]
+	QUAD $0x0000e099a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rbx + 224]
+	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
+	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
+	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
+	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB2_196
+	JMP  LBB2_315
+
+LBB2_197:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0     // and    edx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
+	WORD $0x8948; BYTE $0xf3     // mov    rbx, rsi
+	LONG $0x04ebc148             // shr    rbx, 4
+	LONG $0x01c38348             // add    rbx, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_322
+	WORD $0x8948; BYTE $0xde     // mov    rsi, rbx
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_199:
+	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x6c5cf5c5; WORD $0x60f9             // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080f9945cf5c5; BYTE $0x00       // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f99c5cf5c5; BYTE $0x00       // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f9a45cf5c5; BYTE $0x00       // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9ac5cf5c5; BYTE $0x00       // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_199
+	JMP  LBB2_323
+
+LBB2_200:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_330
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_202:
+	LONG $0x0cf8fdc5; BYTE $0x19               // vpsubb    ymm1, ymm0, yword [rcx + rbx]
+	LONG $0x54f8fdc5; WORD $0x2019             // vpsubb    ymm2, ymm0, yword [rcx + rbx + 32]
+	LONG $0x5cf8fdc5; WORD $0x4019             // vpsubb    ymm3, ymm0, yword [rcx + rbx + 64]
+	LONG $0x64f8fdc5; WORD $0x6019             // vpsubb    ymm4, ymm0, yword [rcx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
+	QUAD $0x000080198cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rbx + 128]
+	QUAD $0x0000a01994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rbx + 160]
+	QUAD $0x0000c0199cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rbx + 192]
+	QUAD $0x0000e019a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rbx + 224]
+	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
+	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
+	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
+	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
+	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB2_202
+	JMP  LBB2_331
+
+LBB2_203:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_338
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_205:
+	LONG $0x0cfbfdc5; BYTE $0xd9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx]
+	LONG $0x54fbfdc5; WORD $0x20d9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
+	LONG $0x5cfbfdc5; WORD $0x40d9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
+	LONG $0x64fbfdc5; WORD $0x60d9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
+	QUAD $0x000080d98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx + 128]
+	QUAD $0x0000a0d994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 160]
+	QUAD $0x0000c0d99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 192]
+	QUAD $0x0000e0d9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rbx + 224]
+	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
+	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
+	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
+	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB2_205
+	JMP  LBB2_339
+
+LBB2_206:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_346
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_208:
+	LONG $0x0cf9fdc5; BYTE $0x59               // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx]
+	LONG $0x54f9fdc5; WORD $0x2059             // vpsubw    ymm2, ymm0, yword [rcx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
+	LONG $0x4cf9fdc5; WORD $0x4059             // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx + 64]
+	LONG $0x54f9fdc5; WORD $0x6059             // vpsubw    ymm2, ymm0, yword [rcx + 2*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB2_208
+	JMP  LBB2_347
+
+LBB2_209:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_354
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_211:
+	LONG $0x0cf9fdc5; BYTE $0x59               // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx]
+	LONG $0x54f9fdc5; WORD $0x2059             // vpsubw    ymm2, ymm0, yword [rcx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
+	LONG $0x4cf9fdc5; WORD $0x4059             // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx + 64]
+	LONG $0x54f9fdc5; WORD $0x6059             // vpsubw    ymm2, ymm0, yword [rcx + 2*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB2_211
+	JMP  LBB2_355
+
+LBB2_212:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_362
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_214:
+	LONG $0x0cfbfdc5; BYTE $0xd9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx]
+	LONG $0x54fbfdc5; WORD $0x20d9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
+	LONG $0x5cfbfdc5; WORD $0x40d9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
+	LONG $0x64fbfdc5; WORD $0x60d9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
+	QUAD $0x000080d98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx + 128]
+	QUAD $0x0000a0d994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 160]
+	QUAD $0x0000c0d99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 192]
+	QUAD $0x0000e0d9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rbx + 224]
+	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
+	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
+	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
+	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB2_214
+	JMP  LBB2_363
+
+LBB2_215:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0     // and    edx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
+	WORD $0x8948; BYTE $0xf3     // mov    rbx, rsi
+	LONG $0x05ebc148             // shr    rbx, 5
+	LONG $0x01c38348             // add    rbx, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_370
+	WORD $0x8948; BYTE $0xde     // mov    rsi, rbx
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_217:
+	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x6c5cf4c5; WORD $0x60b9             // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080b9945cf4c5; BYTE $0x00       // vsubps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b99c5cf4c5; BYTE $0x00       // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b9a45cf4c5; BYTE $0x00       // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9ac5cf4c5; BYTE $0x00       // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_217
+	JMP  LBB2_371
+
+LBB2_218:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_378
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_220:
+	LONG $0x0cf8fdc5; BYTE $0x19               // vpsubb    ymm1, ymm0, yword [rcx + rbx]
+	LONG $0x54f8fdc5; WORD $0x2019             // vpsubb    ymm2, ymm0, yword [rcx + rbx + 32]
+	LONG $0x5cf8fdc5; WORD $0x4019             // vpsubb    ymm3, ymm0, yword [rcx + rbx + 64]
+	LONG $0x64f8fdc5; WORD $0x6019             // vpsubb    ymm4, ymm0, yword [rcx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
+	QUAD $0x000080198cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rbx + 128]
+	QUAD $0x0000a01994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rbx + 160]
+	QUAD $0x0000c0199cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rbx + 192]
+	QUAD $0x0000e019a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rbx + 224]
+	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
+	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
+	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
+	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
+	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB2_220
+	JMP  LBB2_379
+
+LBB2_221:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_386
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_223:
+	LONG $0x0cfafdc5; BYTE $0x99               // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx]
+	LONG $0x54fafdc5; WORD $0x2099             // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
+	LONG $0x5cfafdc5; WORD $0x4099             // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
+	LONG $0x64fafdc5; WORD $0x6099             // vpsubd    ymm4, ymm0, yword [rcx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
+	QUAD $0x000080998cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx + 128]
+	QUAD $0x0000a09994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 160]
+	QUAD $0x0000c0999cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 192]
+	QUAD $0x0000e099a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rbx + 224]
+	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
+	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
+	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
+	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB2_223
+	JMP  LBB2_387
+
+LBB2_254:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_394
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_256:
+	LONG $0x0cfefdc5; BYTE $0x99               // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx]
+	LONG $0x54fefdc5; WORD $0x2099             // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
+	LONG $0x5cfefdc5; WORD $0x4099             // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
+	LONG $0x64fefdc5; WORD $0x6099             // vpaddd    ymm4, ymm0, yword [rcx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
+	QUAD $0x000080998cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx + 128]
+	QUAD $0x0000a09994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 160]
+	QUAD $0x0000c0999cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 192]
+	QUAD $0x0000e099a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rbx + 224]
+	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
+	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
+	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
+	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_256
+	JMP  LBB2_395
+
+LBB2_257:
+	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
+	LONG $0x04eac149             // shr    r10, 4
+	LONG $0x01c28349             // add    r10, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_402
+	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_259:
+	LONG $0x1458f5c5; BYTE $0xd9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rbx]
+	LONG $0x5c58f5c5; WORD $0x20d9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rbx + 32]
+	LONG $0x6458f5c5; WORD $0x40d9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rbx + 64]
+	LONG $0x6c58f5c5; WORD $0x60d9             // vaddpd    ymm5, ymm1, yword [rcx + 8*rbx + 96]
+	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
+	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xd86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm5
+	QUAD $0x000080d99458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rcx + 8*rbx + 128]
+	QUAD $0x0000a0d99c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rcx + 8*rbx + 160]
+	QUAD $0x0000c0d9a458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rcx + 8*rbx + 192]
+	QUAD $0x0000e0d9ac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rcx + 8*rbx + 224]
+	QUAD $0x0080d894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 128], ymm2
+	QUAD $0x00a0d89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 160], ymm3
+	QUAD $0x00c0d8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 192], ymm4
+	QUAD $0x00e0d8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 224], ymm5
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_259
+	JMP  LBB2_403
+
+LBB2_260:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80468d48             // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x07ebc149             // shr    r11, 7
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_410
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_262:
+	LONG $0x0cfcfdc5; BYTE $0x19               // vpaddb    ymm1, ymm0, yword [rcx + rbx]
+	LONG $0x54fcfdc5; WORD $0x2019             // vpaddb    ymm2, ymm0, yword [rcx + rbx + 32]
+	LONG $0x5cfcfdc5; WORD $0x4019             // vpaddb    ymm3, ymm0, yword [rcx + rbx + 64]
+	LONG $0x64fcfdc5; WORD $0x6019             // vpaddb    ymm4, ymm0, yword [rcx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
+	QUAD $0x000080198cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rbx + 128]
+	QUAD $0x0000a01994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rbx + 160]
+	QUAD $0x0000c0199cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rbx + 192]
+	QUAD $0x0000e019a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rbx + 224]
+	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
+	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
+	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
+	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
+	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_262
+	JMP  LBB2_411
+
+LBB2_263:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_418
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_265:
+	LONG $0x0cd4fdc5; BYTE $0xd9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx]
+	LONG $0x54d4fdc5; WORD $0x20d9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
+	LONG $0x5cd4fdc5; WORD $0x40d9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
+	LONG $0x64d4fdc5; WORD $0x60d9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
+	QUAD $0x000080d98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx + 128]
+	QUAD $0x0000a0d994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 160]
+	QUAD $0x0000c0d99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 192]
+	QUAD $0x0000e0d9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rbx + 224]
+	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
+	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
+	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
+	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_265
+	JMP  LBB2_419
+
+LBB2_266:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_426
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_268:
+	LONG $0x0cfdfdc5; BYTE $0x59               // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx]
+	LONG $0x54fdfdc5; WORD $0x2059             // vpaddw    ymm2, ymm0, yword [rcx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x4059             // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx + 64]
+	LONG $0x54fdfdc5; WORD $0x6059             // vpaddw    ymm2, ymm0, yword [rcx + 2*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_268
+	JMP  LBB2_427
+
+LBB2_269:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_434
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_271:
+	LONG $0x0cfdfdc5; BYTE $0x59               // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx]
+	LONG $0x54fdfdc5; WORD $0x2059             // vpaddw    ymm2, ymm0, yword [rcx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x4059             // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx + 64]
+	LONG $0x54fdfdc5; WORD $0x6059             // vpaddw    ymm2, ymm0, yword [rcx + 2*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_271
+	JMP  LBB2_435
+
+LBB2_272:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_442
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_274:
+	LONG $0x0cd4fdc5; BYTE $0xd9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx]
+	LONG $0x54d4fdc5; WORD $0x20d9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
+	LONG $0x5cd4fdc5; WORD $0x40d9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
+	LONG $0x64d4fdc5; WORD $0x60d9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
+	QUAD $0x000080d98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx + 128]
+	QUAD $0x0000a0d994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 160]
+	QUAD $0x0000c0d99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 192]
+	QUAD $0x0000e0d9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rbx + 224]
+	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
+	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
+	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
+	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_274
+	JMP  LBB2_443
+
+LBB2_275:
+	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
+	LONG $0x05eac149             // shr    r10, 5
+	LONG $0x01c28349             // add    r10, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_450
+	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_277:
+	LONG $0x1458f4c5; BYTE $0x99               // vaddps    ymm2, ymm1, yword [rcx + 4*rbx]
+	LONG $0x5c58f4c5; WORD $0x2099             // vaddps    ymm3, ymm1, yword [rcx + 4*rbx + 32]
+	LONG $0x6458f4c5; WORD $0x4099             // vaddps    ymm4, ymm1, yword [rcx + 4*rbx + 64]
+	LONG $0x6c58f4c5; WORD $0x6099             // vaddps    ymm5, ymm1, yword [rcx + 4*rbx + 96]
+	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
+	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
+	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
+	LONG $0x117cc1c4; WORD $0x986c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm5
+	QUAD $0x000080999458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rcx + 4*rbx + 128]
+	QUAD $0x0000a0999c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rcx + 4*rbx + 160]
+	QUAD $0x0000c099a458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rcx + 4*rbx + 192]
+	QUAD $0x0000e099ac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rcx + 4*rbx + 224]
+	QUAD $0x00809894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 128], ymm2
+	QUAD $0x00a0989c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 160], ymm3
+	QUAD $0x00c098a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 192], ymm4
+	QUAD $0x00e098ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 224], ymm5
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_277
+	JMP  LBB2_451
+
+LBB2_278:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80468d48             // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x07ebc149             // shr    r11, 7
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_458
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_280:
+	LONG $0x0cfcfdc5; BYTE $0x19               // vpaddb    ymm1, ymm0, yword [rcx + rbx]
+	LONG $0x54fcfdc5; WORD $0x2019             // vpaddb    ymm2, ymm0, yword [rcx + rbx + 32]
+	LONG $0x5cfcfdc5; WORD $0x4019             // vpaddb    ymm3, ymm0, yword [rcx + rbx + 64]
+	LONG $0x64fcfdc5; WORD $0x6019             // vpaddb    ymm4, ymm0, yword [rcx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
+	QUAD $0x000080198cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rbx + 128]
+	QUAD $0x0000a01994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rbx + 160]
+	QUAD $0x0000c0199cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rbx + 192]
+	QUAD $0x0000e019a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rbx + 224]
+	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
+	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
+	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
+	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
+	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_280
+	JMP  LBB2_459
+
+LBB2_281:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_466
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_283:
+	LONG $0x0cfefdc5; BYTE $0x99               // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx]
+	LONG $0x54fefdc5; WORD $0x2099             // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
+	LONG $0x5cfefdc5; WORD $0x4099             // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
+	LONG $0x64fefdc5; WORD $0x6099             // vpaddd    ymm4, ymm0, yword [rcx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
+	QUAD $0x000080998cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx + 128]
+	QUAD $0x0000a09994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 160]
+	QUAD $0x0000c0999cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 192]
+	QUAD $0x0000e099a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rbx + 224]
+	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
+	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
+	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
+	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_283
+	JMP  LBB2_467
+
+LBB2_284:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_658
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_286:
+	LONG $0x0cfefdc5; BYTE $0x99               // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx]
+	LONG $0x54fefdc5; WORD $0x2099             // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
+	LONG $0x5cfefdc5; WORD $0x4099             // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
+	LONG $0x64fefdc5; WORD $0x6099             // vpaddd    ymm4, ymm0, yword [rcx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
+	QUAD $0x000080998cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx + 128]
+	QUAD $0x0000a09994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 160]
+	QUAD $0x0000c0999cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 192]
+	QUAD $0x0000e099a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rbx + 224]
+	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
+	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
+	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
+	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_286
+	JMP  LBB2_659
+
+LBB2_287:
+	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
+	LONG $0x04eac149             // shr    r10, 4
+	LONG $0x01c28349             // add    r10, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_666
+	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_289:
+	LONG $0x1458f5c5; BYTE $0xd9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rbx]
+	LONG $0x5c58f5c5; WORD $0x20d9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rbx + 32]
+	LONG $0x6458f5c5; WORD $0x40d9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rbx + 64]
+	LONG $0x6c58f5c5; WORD $0x60d9             // vaddpd    ymm5, ymm1, yword [rcx + 8*rbx + 96]
+	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
+	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xd86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm5
+	QUAD $0x000080d99458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rcx + 8*rbx + 128]
+	QUAD $0x0000a0d99c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rcx + 8*rbx + 160]
+	QUAD $0x0000c0d9a458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rcx + 8*rbx + 192]
+	QUAD $0x0000e0d9ac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rcx + 8*rbx + 224]
+	QUAD $0x0080d894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 128], ymm2
+	QUAD $0x00a0d89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 160], ymm3
+	QUAD $0x00c0d8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 192], ymm4
+	QUAD $0x00e0d8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 224], ymm5
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_289
+	JMP  LBB2_667
+
+LBB2_290:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80468d48             // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x07ebc149             // shr    r11, 7
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_674
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_292:
+	LONG $0x0cfcfdc5; BYTE $0x19               // vpaddb    ymm1, ymm0, yword [rcx + rbx]
+	LONG $0x54fcfdc5; WORD $0x2019             // vpaddb    ymm2, ymm0, yword [rcx + rbx + 32]
+	LONG $0x5cfcfdc5; WORD $0x4019             // vpaddb    ymm3, ymm0, yword [rcx + rbx + 64]
+	LONG $0x64fcfdc5; WORD $0x6019             // vpaddb    ymm4, ymm0, yword [rcx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
+	QUAD $0x000080198cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rbx + 128]
+	QUAD $0x0000a01994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rbx + 160]
+	QUAD $0x0000c0199cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rbx + 192]
+	QUAD $0x0000e019a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rbx + 224]
+	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
+	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
+	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
+	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
+	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_292
+	JMP  LBB2_675
+
+LBB2_293:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_682
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_295:
+	LONG $0x0cd4fdc5; BYTE $0xd9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx]
+	LONG $0x54d4fdc5; WORD $0x20d9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
+	LONG $0x5cd4fdc5; WORD $0x40d9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
+	LONG $0x64d4fdc5; WORD $0x60d9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
+	QUAD $0x000080d98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx + 128]
+	QUAD $0x0000a0d994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 160]
+	QUAD $0x0000c0d99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 192]
+	QUAD $0x0000e0d9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rbx + 224]
+	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
+	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
+	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
+	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_295
+	JMP  LBB2_683
+
+LBB2_296:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_690
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_298:
+	LONG $0x0cfdfdc5; BYTE $0x59               // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx]
+	LONG $0x54fdfdc5; WORD $0x2059             // vpaddw    ymm2, ymm0, yword [rcx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x4059             // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx + 64]
+	LONG $0x54fdfdc5; WORD $0x6059             // vpaddw    ymm2, ymm0, yword [rcx + 2*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_298
+	JMP  LBB2_691
+
+LBB2_299:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_698
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_301:
+	LONG $0x0cfdfdc5; BYTE $0x59               // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx]
+	LONG $0x54fdfdc5; WORD $0x2059             // vpaddw    ymm2, ymm0, yword [rcx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x4059             // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx + 64]
+	LONG $0x54fdfdc5; WORD $0x6059             // vpaddw    ymm2, ymm0, yword [rcx + 2*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_301
+	JMP  LBB2_699
+
+LBB2_302:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_706
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_304:
+	LONG $0x0cd4fdc5; BYTE $0xd9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx]
+	LONG $0x54d4fdc5; WORD $0x20d9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
+	LONG $0x5cd4fdc5; WORD $0x40d9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
+	LONG $0x64d4fdc5; WORD $0x60d9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
+	QUAD $0x000080d98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx + 128]
+	QUAD $0x0000a0d994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 160]
+	QUAD $0x0000c0d99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 192]
+	QUAD $0x0000e0d9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rbx + 224]
+	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
+	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
+	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
+	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_304
+	JMP  LBB2_707
+
+LBB2_305:
+	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
+	LONG $0x05eac149             // shr    r10, 5
+	LONG $0x01c28349             // add    r10, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_714
+	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_307:
+	LONG $0x1458f4c5; BYTE $0x99               // vaddps    ymm2, ymm1, yword [rcx + 4*rbx]
+	LONG $0x5c58f4c5; WORD $0x2099             // vaddps    ymm3, ymm1, yword [rcx + 4*rbx + 32]
+	LONG $0x6458f4c5; WORD $0x4099             // vaddps    ymm4, ymm1, yword [rcx + 4*rbx + 64]
+	LONG $0x6c58f4c5; WORD $0x6099             // vaddps    ymm5, ymm1, yword [rcx + 4*rbx + 96]
+	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
+	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
+	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
+	LONG $0x117cc1c4; WORD $0x986c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm5
+	QUAD $0x000080999458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rcx + 4*rbx + 128]
+	QUAD $0x0000a0999c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rcx + 4*rbx + 160]
+	QUAD $0x0000c099a458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rcx + 4*rbx + 192]
+	QUAD $0x0000e099ac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rcx + 4*rbx + 224]
+	QUAD $0x00809894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 128], ymm2
+	QUAD $0x00a0989c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 160], ymm3
+	QUAD $0x00c098a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 192], ymm4
+	QUAD $0x00e098ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 224], ymm5
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_307
+	JMP  LBB2_715
+
+LBB2_308:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80468d48             // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x07ebc149             // shr    r11, 7
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_722
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_310:
+	LONG $0x0cfcfdc5; BYTE $0x19               // vpaddb    ymm1, ymm0, yword [rcx + rbx]
+	LONG $0x54fcfdc5; WORD $0x2019             // vpaddb    ymm2, ymm0, yword [rcx + rbx + 32]
+	LONG $0x5cfcfdc5; WORD $0x4019             // vpaddb    ymm3, ymm0, yword [rcx + rbx + 64]
+	LONG $0x64fcfdc5; WORD $0x6019             // vpaddb    ymm4, ymm0, yword [rcx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
+	QUAD $0x000080198cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rbx + 128]
+	QUAD $0x0000a01994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rbx + 160]
+	QUAD $0x0000c0199cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rbx + 192]
+	QUAD $0x0000e019a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rbx + 224]
+	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
+	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
+	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
+	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
+	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_310
+	JMP  LBB2_723
+
+LBB2_311:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_730
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_313:
+	LONG $0x0cfefdc5; BYTE $0x99               // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx]
+	LONG $0x54fefdc5; WORD $0x2099             // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
+	LONG $0x5cfefdc5; WORD $0x4099             // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
+	LONG $0x64fefdc5; WORD $0x6099             // vpaddd    ymm4, ymm0, yword [rcx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
+	QUAD $0x000080998cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx + 128]
+	QUAD $0x0000a09994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 160]
+	QUAD $0x0000c0999cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 192]
+	QUAD $0x0000e099a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rbx + 224]
+	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
+	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
+	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
+	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_313
+	JMP  LBB2_731
+
+LBB2_314:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_315:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_317
+	LONG $0x0cfafdc5; BYTE $0x99               // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx]
+	LONG $0x54fafdc5; WORD $0x2099             // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
+	LONG $0x5cfafdc5; WORD $0x4099             // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
+	LONG $0x44fafdc5; WORD $0x6099             // vpsubd    ymm0, ymm0, yword [rcx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+
+LBB2_317:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_517
+	JMP  LBB2_318
+
+LBB2_322:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_323:
+	WORD $0xc3f6; BYTE $0x01                   // test    bl, 1
+	JE   LBB2_325
+	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x4c5cf5c5; WORD $0x60f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
+
+LBB2_325:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_517
+	JMP  LBB2_326
+
+LBB2_330:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_331:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_333
+	LONG $0x0cf8fdc5; BYTE $0x19               // vpsubb    ymm1, ymm0, yword [rcx + rbx]
+	LONG $0x54f8fdc5; WORD $0x2019             // vpsubb    ymm2, ymm0, yword [rcx + rbx + 32]
+	LONG $0x5cf8fdc5; WORD $0x4019             // vpsubb    ymm3, ymm0, yword [rcx + rbx + 64]
+	LONG $0x44f8fdc5; WORD $0x6019             // vpsubb    ymm0, ymm0, yword [rcx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+
+LBB2_333:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_517
+	JMP  LBB2_334
+
+LBB2_338:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_339:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_341
+	LONG $0x0cfbfdc5; BYTE $0xd9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx]
+	LONG $0x54fbfdc5; WORD $0x20d9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
+	LONG $0x5cfbfdc5; WORD $0x40d9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
+	LONG $0x44fbfdc5; WORD $0x60d9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+
+LBB2_341:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_517
+	JMP  LBB2_342
+
+LBB2_346:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_347:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_349
+	LONG $0x0cf9fdc5; BYTE $0x59               // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx]
+	LONG $0x44f9fdc5; WORD $0x2059             // vpsubw    ymm0, ymm0, yword [rcx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+
+LBB2_349:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_517
+	JMP  LBB2_350
+
+LBB2_354:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_355:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_357
+	LONG $0x0cf9fdc5; BYTE $0x59               // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx]
+	LONG $0x44f9fdc5; WORD $0x2059             // vpsubw    ymm0, ymm0, yword [rcx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+
+LBB2_357:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_517
+	JMP  LBB2_358
+
+LBB2_362:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_363:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_365
+	LONG $0x0cfbfdc5; BYTE $0xd9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx]
+	LONG $0x54fbfdc5; WORD $0x20d9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
+	LONG $0x5cfbfdc5; WORD $0x40d9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
+	LONG $0x44fbfdc5; WORD $0x60d9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+
+LBB2_365:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_517
+	JMP  LBB2_366
+
+LBB2_370:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_371:
+	WORD $0xc3f6; BYTE $0x01                   // test    bl, 1
+	JE   LBB2_373
+	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x4c5cf4c5; WORD $0x60b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
+
+LBB2_373:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_517
+	JMP  LBB2_374
+
+LBB2_378:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_379:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_381
+	LONG $0x0cf8fdc5; BYTE $0x19               // vpsubb    ymm1, ymm0, yword [rcx + rbx]
+	LONG $0x54f8fdc5; WORD $0x2019             // vpsubb    ymm2, ymm0, yword [rcx + rbx + 32]
+	LONG $0x5cf8fdc5; WORD $0x4019             // vpsubb    ymm3, ymm0, yword [rcx + rbx + 64]
+	LONG $0x44f8fdc5; WORD $0x6019             // vpsubb    ymm0, ymm0, yword [rcx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+
+LBB2_381:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_517
+	JMP  LBB2_382
+
+LBB2_386:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_387:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_389
+	LONG $0x0cfafdc5; BYTE $0x99               // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx]
+	LONG $0x54fafdc5; WORD $0x2099             // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
+	LONG $0x5cfafdc5; WORD $0x4099             // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
+	LONG $0x44fafdc5; WORD $0x6099             // vpsubd    ymm0, ymm0, yword [rcx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+
+LBB2_389:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_517
+	JMP  LBB2_390
+
+LBB2_394:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_395:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_397
+	LONG $0x0cfefdc5; BYTE $0x99               // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx]
+	LONG $0x54fefdc5; WORD $0x2099             // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
+	LONG $0x5cfefdc5; WORD $0x4099             // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
+	LONG $0x44fefdc5; WORD $0x6099             // vpaddd    ymm0, ymm0, yword [rcx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+
+LBB2_397:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_474
+	JMP  LBB2_398
+
+LBB2_402:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_403:
+	LONG $0x01c2f641                           // test    r10b, 1
+	JE   LBB2_405
+	LONG $0x1458f5c5; BYTE $0xd9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rbx]
+	LONG $0x5c58f5c5; WORD $0x20d9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rbx + 32]
+	LONG $0x6458f5c5; WORD $0x40d9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rbx + 64]
+	LONG $0x4c58f5c5; WORD $0x60d9             // vaddpd    ymm1, ymm1, yword [rcx + 8*rbx + 96]
+	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
+	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xd84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm1
+
+LBB2_405:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB2_474
+	JMP  LBB2_406
+
+LBB2_410:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_411:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_413
+	LONG $0x0cfcfdc5; BYTE $0x19               // vpaddb    ymm1, ymm0, yword [rcx + rbx]
+	LONG $0x54fcfdc5; WORD $0x2019             // vpaddb    ymm2, ymm0, yword [rcx + rbx + 32]
+	LONG $0x5cfcfdc5; WORD $0x4019             // vpaddb    ymm3, ymm0, yword [rcx + rbx + 64]
+	LONG $0x44fcfdc5; WORD $0x6019             // vpaddb    ymm0, ymm0, yword [rcx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+
+LBB2_413:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_474
+	JMP  LBB2_414
+
+LBB2_418:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_419:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_421
+	LONG $0x0cd4fdc5; BYTE $0xd9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx]
+	LONG $0x54d4fdc5; WORD $0x20d9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
+	LONG $0x5cd4fdc5; WORD $0x40d9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
+	LONG $0x44d4fdc5; WORD $0x60d9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+
+LBB2_421:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_474
+	JMP  LBB2_422
+
+LBB2_426:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_427:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_429
+	LONG $0x0cfdfdc5; BYTE $0x59               // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx]
+	LONG $0x44fdfdc5; WORD $0x2059             // vpaddw    ymm0, ymm0, yword [rcx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+
+LBB2_429:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_474
+	JMP  LBB2_430
+
+LBB2_434:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_435:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_437
+	LONG $0x0cfdfdc5; BYTE $0x59               // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx]
+	LONG $0x44fdfdc5; WORD $0x2059             // vpaddw    ymm0, ymm0, yword [rcx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+
+LBB2_437:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_474
+	JMP  LBB2_438
+
+LBB2_442:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_443:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_445
+	LONG $0x0cd4fdc5; BYTE $0xd9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx]
+	LONG $0x54d4fdc5; WORD $0x20d9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
+	LONG $0x5cd4fdc5; WORD $0x40d9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
+	LONG $0x44d4fdc5; WORD $0x60d9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+
+LBB2_445:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_474
+	JMP  LBB2_446
+
+LBB2_450:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_451:
+	LONG $0x01c2f641                           // test    r10b, 1
+	JE   LBB2_453
+	LONG $0x1458f4c5; BYTE $0x99               // vaddps    ymm2, ymm1, yword [rcx + 4*rbx]
+	LONG $0x5c58f4c5; WORD $0x2099             // vaddps    ymm3, ymm1, yword [rcx + 4*rbx + 32]
+	LONG $0x6458f4c5; WORD $0x4099             // vaddps    ymm4, ymm1, yword [rcx + 4*rbx + 64]
+	LONG $0x4c58f4c5; WORD $0x6099             // vaddps    ymm1, ymm1, yword [rcx + 4*rbx + 96]
+	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
+	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
+	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
+	LONG $0x117cc1c4; WORD $0x984c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm1
+
+LBB2_453:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB2_474
+	JMP  LBB2_454
+
+LBB2_458:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_459:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_461
+	LONG $0x0cfcfdc5; BYTE $0x19               // vpaddb    ymm1, ymm0, yword [rcx + rbx]
+	LONG $0x54fcfdc5; WORD $0x2019             // vpaddb    ymm2, ymm0, yword [rcx + rbx + 32]
+	LONG $0x5cfcfdc5; WORD $0x4019             // vpaddb    ymm3, ymm0, yword [rcx + rbx + 64]
+	LONG $0x44fcfdc5; WORD $0x6019             // vpaddb    ymm0, ymm0, yword [rcx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+
+LBB2_461:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_474
+	JMP  LBB2_462
+
+LBB2_466:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_467:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_469
+	LONG $0x0cfefdc5; BYTE $0x99               // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx]
+	LONG $0x54fefdc5; WORD $0x2099             // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
+	LONG $0x5cfefdc5; WORD $0x4099             // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
+	LONG $0x44fefdc5; WORD $0x6099             // vpaddd    ymm0, ymm0, yword [rcx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+
+LBB2_469:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB2_470
+
+LBB2_474:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_482
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_489
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_499
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_502
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_13
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_481
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_548
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_548
+
+LBB2_481:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_582:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_584
+
+LBB2_583:
+	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_583
+
+LBB2_584:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_13
+
+LBB2_585:
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_585
+	JMP  LBB2_13
+
+LBB2_482:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_494
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_505
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_508
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_13
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_488
+	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_551
+	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_551
+
+LBB2_488:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_590:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_592
+
+LBB2_591:
+	LONG $0x0c5cfbc5; BYTE $0xf1   // vsubsd    xmm1, xmm0, qword [rcx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf00c // vmovsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB2_591
+
+LBB2_592:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB2_13
+
+LBB2_593:
+	LONG $0x0c5cfbc5; BYTE $0xf1               // vsubsd    xmm1, xmm0, qword [rcx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf00c             // vmovsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x4c5cfbc5; WORD $0x08f1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0x4c5cfbc5; WORD $0x10f1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0x4c5cfbc5; WORD $0x18f1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB2_593
+	JMP  LBB2_13
+
+LBB2_489:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB2_511
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB2_13
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8a44; BYTE $0x32                   // mov    r14b, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_493
+	LONG $0x11048d4a                           // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
+	JBE  LBB2_554
+	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JBE  LBB2_554
+
+LBB2_493:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_598:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_600
+
+LBB2_599:
+	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_599
+
+LBB2_600:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_13
+
+LBB2_601:
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_601
+	JMP  LBB2_13
+
+LBB2_494:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_514
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_13
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_498
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_557
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_557
+
+LBB2_498:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_606:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_608
+
+LBB2_607:
+	WORD $0x894c; BYTE $0xf0 // mov    rax, r14
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_607
+
+LBB2_608:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_13
+
+LBB2_609:
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_609
+	JMP  LBB2_13
+
+LBB2_499:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x32b70f44         // movzx    r14d, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_501
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_560
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_560
+
+LBB2_501:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_614:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB2_616
+
+LBB2_615:
+	WORD $0x8944; BYTE $0xf3     // mov    ebx, r14d
+	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB2_615
+
+LBB2_616:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_13
+
+LBB2_617:
+	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_617
+	JMP  LBB2_13
+
+LBB2_502:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x32b70f44         // movzx    r14d, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_504
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_563
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_563
+
+LBB2_504:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_622:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB2_624
+
+LBB2_623:
+	WORD $0x8944; BYTE $0xf3     // mov    ebx, r14d
+	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB2_623
+
+LBB2_624:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_13
+
+LBB2_625:
+	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_625
+	JMP  LBB2_13
+
+LBB2_505:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_507
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_566
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_566
+
+LBB2_507:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_630:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_632
+
+LBB2_631:
+	WORD $0x894c; BYTE $0xf0 // mov    rax, r14
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_631
+
+LBB2_632:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_13
+
+LBB2_633:
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_633
+	JMP  LBB2_13
+
+LBB2_508:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_510
+	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_569
+	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_569
+
+LBB2_510:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_638:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_640
+
+LBB2_639:
+	LONG $0x0c5cfac5; BYTE $0xb1   // vsubss    xmm1, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb00c // vmovss    dword [r8 + 4*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB2_639
+
+LBB2_640:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB2_13
+
+LBB2_641:
+	LONG $0x0c5cfac5; BYTE $0xb1               // vsubss    xmm1, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb00c             // vmovss    dword [r8 + 4*rsi], xmm1
+	LONG $0x4c5cfac5; WORD $0x04b1             // vsubss    xmm1, xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm1
+	LONG $0x4c5cfac5; WORD $0x08b1             // vsubss    xmm1, xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm1
+	LONG $0x4c5cfac5; WORD $0x0cb1             // vsubss    xmm1, xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB2_641
+	JMP  LBB2_13
+
+LBB2_511:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8a44; BYTE $0x32                   // mov    r14b, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_513
+	LONG $0x11048d4a                           // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
+	JBE  LBB2_572
+	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JBE  LBB2_572
+
+LBB2_513:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_646:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_648
+
+LBB2_647:
+	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_647
+
+LBB2_648:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_13
+
+LBB2_649:
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_649
+	JMP  LBB2_13
+
+LBB2_514:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_516
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_575
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_575
+
+LBB2_516:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_654:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_656
+
+LBB2_655:
+	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_655
+
+LBB2_656:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_13
+
+LBB2_657:
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_657
+	JMP  LBB2_13
+
+LBB2_517:
+	VZEROUPPER
+	RET
+
+LBB2_548:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_578
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_550:
+	LONG $0x0cfafdc5; BYTE $0x99               // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx]
+	LONG $0x54fafdc5; WORD $0x2099             // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
+	LONG $0x5cfafdc5; WORD $0x4099             // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
+	LONG $0x64fafdc5; WORD $0x6099             // vpsubd    ymm4, ymm0, yword [rcx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
+	QUAD $0x000080998cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx + 128]
+	QUAD $0x0000a09994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 160]
+	QUAD $0x0000c0999cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 192]
+	QUAD $0x0000e099a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rbx + 224]
+	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
+	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
+	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
+	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_550
+	JMP  LBB2_579
+
+LBB2_551:
+	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
+	LONG $0x04eac149             // shr    r10, 4
+	LONG $0x01c28349             // add    r10, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_586
+	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_553:
+	LONG $0x145cf5c5; BYTE $0xd9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rbx]
+	LONG $0x5c5cf5c5; WORD $0x20d9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rbx + 32]
+	LONG $0x645cf5c5; WORD $0x40d9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rbx + 64]
+	LONG $0x6c5cf5c5; WORD $0x60d9             // vsubpd    ymm5, ymm1, yword [rcx + 8*rbx + 96]
+	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
+	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xd86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm5
+	QUAD $0x000080d9945cf5c5; BYTE $0x00       // vsubpd    ymm2, ymm1, yword [rcx + 8*rbx + 128]
+	QUAD $0x0000a0d99c5cf5c5; BYTE $0x00       // vsubpd    ymm3, ymm1, yword [rcx + 8*rbx + 160]
+	QUAD $0x0000c0d9a45cf5c5; BYTE $0x00       // vsubpd    ymm4, ymm1, yword [rcx + 8*rbx + 192]
+	QUAD $0x0000e0d9ac5cf5c5; BYTE $0x00       // vsubpd    ymm5, ymm1, yword [rcx + 8*rbx + 224]
+	QUAD $0x0080d894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 128], ymm2
+	QUAD $0x00a0d89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 160], ymm3
+	QUAD $0x00c0d8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 192], ymm4
+	QUAD $0x00e0d8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 224], ymm5
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_553
+	JMP  LBB2_587
+
+LBB2_554:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80468d48             // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x07ebc149             // shr    r11, 7
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_594
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_556:
+	LONG $0x0cf8fdc5; BYTE $0x19               // vpsubb    ymm1, ymm0, yword [rcx + rbx]
+	LONG $0x54f8fdc5; WORD $0x2019             // vpsubb    ymm2, ymm0, yword [rcx + rbx + 32]
+	LONG $0x5cf8fdc5; WORD $0x4019             // vpsubb    ymm3, ymm0, yword [rcx + rbx + 64]
+	LONG $0x64f8fdc5; WORD $0x6019             // vpsubb    ymm4, ymm0, yword [rcx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
+	QUAD $0x000080198cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rbx + 128]
+	QUAD $0x0000a01994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rbx + 160]
+	QUAD $0x0000c0199cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rbx + 192]
+	QUAD $0x0000e019a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rbx + 224]
+	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
+	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
+	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
+	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
+	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_556
+	JMP  LBB2_595
+
+LBB2_557:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_602
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_559:
+	LONG $0x0cfbfdc5; BYTE $0xd9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx]
+	LONG $0x54fbfdc5; WORD $0x20d9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
+	LONG $0x5cfbfdc5; WORD $0x40d9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
+	LONG $0x64fbfdc5; WORD $0x60d9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
+	QUAD $0x000080d98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx + 128]
+	QUAD $0x0000a0d994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 160]
+	QUAD $0x0000c0d99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 192]
+	QUAD $0x0000e0d9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rbx + 224]
+	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
+	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
+	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
+	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_559
+	JMP  LBB2_603
+
+LBB2_560:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_610
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_562:
+	LONG $0x0cf9fdc5; BYTE $0x59               // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx]
+	LONG $0x54f9fdc5; WORD $0x2059             // vpsubw    ymm2, ymm0, yword [rcx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
+	LONG $0x4cf9fdc5; WORD $0x4059             // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx + 64]
+	LONG $0x54f9fdc5; WORD $0x6059             // vpsubw    ymm2, ymm0, yword [rcx + 2*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_562
+	JMP  LBB2_611
+
+LBB2_563:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_618
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_565:
+	LONG $0x0cf9fdc5; BYTE $0x59               // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx]
+	LONG $0x54f9fdc5; WORD $0x2059             // vpsubw    ymm2, ymm0, yword [rcx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
+	LONG $0x4cf9fdc5; WORD $0x4059             // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx + 64]
+	LONG $0x54f9fdc5; WORD $0x6059             // vpsubw    ymm2, ymm0, yword [rcx + 2*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_565
+	JMP  LBB2_619
+
+LBB2_566:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_626
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_568:
+	LONG $0x0cfbfdc5; BYTE $0xd9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx]
+	LONG $0x54fbfdc5; WORD $0x20d9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
+	LONG $0x5cfbfdc5; WORD $0x40d9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
+	LONG $0x64fbfdc5; WORD $0x60d9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
+	QUAD $0x000080d98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx + 128]
+	QUAD $0x0000a0d994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 160]
+	QUAD $0x0000c0d99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 192]
+	QUAD $0x0000e0d9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rbx + 224]
+	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
+	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
+	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
+	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_568
+	JMP  LBB2_627
+
+LBB2_569:
+	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
+	LONG $0x05eac149             // shr    r10, 5
+	LONG $0x01c28349             // add    r10, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_634
+	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_571:
+	LONG $0x145cf4c5; BYTE $0x99               // vsubps    ymm2, ymm1, yword [rcx + 4*rbx]
+	LONG $0x5c5cf4c5; WORD $0x2099             // vsubps    ymm3, ymm1, yword [rcx + 4*rbx + 32]
+	LONG $0x645cf4c5; WORD $0x4099             // vsubps    ymm4, ymm1, yword [rcx + 4*rbx + 64]
+	LONG $0x6c5cf4c5; WORD $0x6099             // vsubps    ymm5, ymm1, yword [rcx + 4*rbx + 96]
+	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
+	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
+	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
+	LONG $0x117cc1c4; WORD $0x986c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm5
+	QUAD $0x00008099945cf4c5; BYTE $0x00       // vsubps    ymm2, ymm1, yword [rcx + 4*rbx + 128]
+	QUAD $0x0000a0999c5cf4c5; BYTE $0x00       // vsubps    ymm3, ymm1, yword [rcx + 4*rbx + 160]
+	QUAD $0x0000c099a45cf4c5; BYTE $0x00       // vsubps    ymm4, ymm1, yword [rcx + 4*rbx + 192]
+	QUAD $0x0000e099ac5cf4c5; BYTE $0x00       // vsubps    ymm5, ymm1, yword [rcx + 4*rbx + 224]
+	QUAD $0x00809894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 128], ymm2
+	QUAD $0x00a0989c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 160], ymm3
+	QUAD $0x00c098a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 192], ymm4
+	QUAD $0x00e098ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 224], ymm5
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_571
+	JMP  LBB2_635
+
+LBB2_572:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80468d48             // lea    rax, [rsi - 128]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x07ebc149             // shr    r11, 7
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_642
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_574:
+	LONG $0x0cf8fdc5; BYTE $0x19               // vpsubb    ymm1, ymm0, yword [rcx + rbx]
+	LONG $0x54f8fdc5; WORD $0x2019             // vpsubb    ymm2, ymm0, yword [rcx + rbx + 32]
+	LONG $0x5cf8fdc5; WORD $0x4019             // vpsubb    ymm3, ymm0, yword [rcx + rbx + 64]
+	LONG $0x64f8fdc5; WORD $0x6019             // vpsubb    ymm4, ymm0, yword [rcx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
+	QUAD $0x000080198cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rbx + 128]
+	QUAD $0x0000a01994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rbx + 160]
+	QUAD $0x0000c0199cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rbx + 192]
+	QUAD $0x0000e019a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rbx + 224]
+	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
+	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
+	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
+	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
+	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_574
+	JMP  LBB2_643
+
+LBB2_575:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_650
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_577:
+	LONG $0x0cfafdc5; BYTE $0x99               // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx]
+	LONG $0x54fafdc5; WORD $0x2099             // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
+	LONG $0x5cfafdc5; WORD $0x4099             // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
+	LONG $0x64fafdc5; WORD $0x6099             // vpsubd    ymm4, ymm0, yword [rcx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
+	QUAD $0x000080998cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx + 128]
+	QUAD $0x0000a09994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 160]
+	QUAD $0x0000c0999cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 192]
+	QUAD $0x0000e099a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rbx + 224]
+	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
+	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
+	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
+	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_577
+	JMP  LBB2_651
+
+LBB2_578:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_579:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_581
+	LONG $0x0cfafdc5; BYTE $0x99               // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx]
+	LONG $0x54fafdc5; WORD $0x2099             // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
+	LONG $0x5cfafdc5; WORD $0x4099             // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
+	LONG $0x44fafdc5; WORD $0x6099             // vpsubd    ymm0, ymm0, yword [rcx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+
+LBB2_581:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_13
+	JMP  LBB2_582
+
+LBB2_586:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_587:
+	LONG $0x01c2f641                           // test    r10b, 1
+	JE   LBB2_589
+	LONG $0x145cf5c5; BYTE $0xd9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rbx]
+	LONG $0x5c5cf5c5; WORD $0x20d9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rbx + 32]
+	LONG $0x645cf5c5; WORD $0x40d9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rbx + 64]
+	LONG $0x4c5cf5c5; WORD $0x60d9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rbx + 96]
+	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
+	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xd84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm1
+
+LBB2_589:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB2_13
+	JMP  LBB2_590
+
+LBB2_594:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_595:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_597
+	LONG $0x0cf8fdc5; BYTE $0x19               // vpsubb    ymm1, ymm0, yword [rcx + rbx]
+	LONG $0x54f8fdc5; WORD $0x2019             // vpsubb    ymm2, ymm0, yword [rcx + rbx + 32]
+	LONG $0x5cf8fdc5; WORD $0x4019             // vpsubb    ymm3, ymm0, yword [rcx + rbx + 64]
+	LONG $0x44f8fdc5; WORD $0x6019             // vpsubb    ymm0, ymm0, yword [rcx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+
+LBB2_597:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_13
+	JMP  LBB2_598
+
+LBB2_602:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_603:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_605
+	LONG $0x0cfbfdc5; BYTE $0xd9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx]
+	LONG $0x54fbfdc5; WORD $0x20d9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
+	LONG $0x5cfbfdc5; WORD $0x40d9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
+	LONG $0x44fbfdc5; WORD $0x60d9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+
+LBB2_605:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_13
+	JMP  LBB2_606
+
+LBB2_610:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_611:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_613
+	LONG $0x0cf9fdc5; BYTE $0x59               // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx]
+	LONG $0x44f9fdc5; WORD $0x2059             // vpsubw    ymm0, ymm0, yword [rcx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+
+LBB2_613:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_13
+	JMP  LBB2_614
+
+LBB2_618:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_619:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_621
+	LONG $0x0cf9fdc5; BYTE $0x59               // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx]
+	LONG $0x44f9fdc5; WORD $0x2059             // vpsubw    ymm0, ymm0, yword [rcx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+
+LBB2_621:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_13
+	JMP  LBB2_622
+
+LBB2_626:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_627:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_629
+	LONG $0x0cfbfdc5; BYTE $0xd9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx]
+	LONG $0x54fbfdc5; WORD $0x20d9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
+	LONG $0x5cfbfdc5; WORD $0x40d9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
+	LONG $0x44fbfdc5; WORD $0x60d9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+
+LBB2_629:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_13
+	JMP  LBB2_630
+
+LBB2_634:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_635:
+	LONG $0x01c2f641                           // test    r10b, 1
+	JE   LBB2_637
+	LONG $0x145cf4c5; BYTE $0x99               // vsubps    ymm2, ymm1, yword [rcx + 4*rbx]
+	LONG $0x5c5cf4c5; WORD $0x2099             // vsubps    ymm3, ymm1, yword [rcx + 4*rbx + 32]
+	LONG $0x645cf4c5; WORD $0x4099             // vsubps    ymm4, ymm1, yword [rcx + 4*rbx + 64]
+	LONG $0x4c5cf4c5; WORD $0x6099             // vsubps    ymm1, ymm1, yword [rcx + 4*rbx + 96]
+	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
+	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
+	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
+	LONG $0x117cc1c4; WORD $0x984c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm1
+
+LBB2_637:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB2_13
+	JMP  LBB2_638
+
+LBB2_642:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_643:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_645
+	LONG $0x0cf8fdc5; BYTE $0x19               // vpsubb    ymm1, ymm0, yword [rcx + rbx]
+	LONG $0x54f8fdc5; WORD $0x2019             // vpsubb    ymm2, ymm0, yword [rcx + rbx + 32]
+	LONG $0x5cf8fdc5; WORD $0x4019             // vpsubb    ymm3, ymm0, yword [rcx + rbx + 64]
+	LONG $0x44f8fdc5; WORD $0x6019             // vpsubb    ymm0, ymm0, yword [rcx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+
+LBB2_645:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_13
+	JMP  LBB2_646
+
+LBB2_650:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_651:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_653
+	LONG $0x0cfafdc5; BYTE $0x99               // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx]
+	LONG $0x54fafdc5; WORD $0x2099             // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
+	LONG $0x5cfafdc5; WORD $0x4099             // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
+	LONG $0x44fafdc5; WORD $0x6099             // vpsubd    ymm0, ymm0, yword [rcx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+
+LBB2_653:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_13
+	JMP  LBB2_654
+
+LBB2_658:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_659:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_661
+	LONG $0x0cfefdc5; BYTE $0x99               // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx]
+	LONG $0x54fefdc5; WORD $0x2099             // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
+	LONG $0x5cfefdc5; WORD $0x4099             // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
+	LONG $0x44fefdc5; WORD $0x6099             // vpaddd    ymm0, ymm0, yword [rcx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+
+LBB2_661:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_3
+	JMP  LBB2_662
+
+LBB2_666:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_667:
+	LONG $0x01c2f641                           // test    r10b, 1
+	JE   LBB2_669
+	LONG $0x1458f5c5; BYTE $0xd9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rbx]
+	LONG $0x5c58f5c5; WORD $0x20d9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rbx + 32]
+	LONG $0x6458f5c5; WORD $0x40d9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rbx + 64]
+	LONG $0x4c58f5c5; WORD $0x60d9             // vaddpd    ymm1, ymm1, yword [rcx + 8*rbx + 96]
+	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
+	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xd84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm1
+
+LBB2_669:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB2_3
+	JMP  LBB2_670
+
+LBB2_674:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_675:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_677
+	LONG $0x0cfcfdc5; BYTE $0x19               // vpaddb    ymm1, ymm0, yword [rcx + rbx]
+	LONG $0x54fcfdc5; WORD $0x2019             // vpaddb    ymm2, ymm0, yword [rcx + rbx + 32]
+	LONG $0x5cfcfdc5; WORD $0x4019             // vpaddb    ymm3, ymm0, yword [rcx + rbx + 64]
+	LONG $0x44fcfdc5; WORD $0x6019             // vpaddb    ymm0, ymm0, yword [rcx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+
+LBB2_677:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_3
+	JMP  LBB2_678
+
+LBB2_682:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_683:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_685
+	LONG $0x0cd4fdc5; BYTE $0xd9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx]
+	LONG $0x54d4fdc5; WORD $0x20d9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
+	LONG $0x5cd4fdc5; WORD $0x40d9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
+	LONG $0x44d4fdc5; WORD $0x60d9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+
+LBB2_685:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_3
+	JMP  LBB2_686
+
+LBB2_690:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_691:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_693
+	LONG $0x0cfdfdc5; BYTE $0x59               // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx]
+	LONG $0x44fdfdc5; WORD $0x2059             // vpaddw    ymm0, ymm0, yword [rcx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+
+LBB2_693:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_3
+	JMP  LBB2_694
+
+LBB2_698:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_699:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_701
+	LONG $0x0cfdfdc5; BYTE $0x59               // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx]
+	LONG $0x44fdfdc5; WORD $0x2059             // vpaddw    ymm0, ymm0, yword [rcx + 2*rbx + 32]
+	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+
+LBB2_701:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_3
+	JMP  LBB2_702
+
+LBB2_706:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_707:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_709
+	LONG $0x0cd4fdc5; BYTE $0xd9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx]
+	LONG $0x54d4fdc5; WORD $0x20d9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
+	LONG $0x5cd4fdc5; WORD $0x40d9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
+	LONG $0x44d4fdc5; WORD $0x60d9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+
+LBB2_709:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_3
+	JMP  LBB2_710
+
+LBB2_714:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_715:
+	LONG $0x01c2f641                           // test    r10b, 1
+	JE   LBB2_717
+	LONG $0x1458f4c5; BYTE $0x99               // vaddps    ymm2, ymm1, yword [rcx + 4*rbx]
+	LONG $0x5c58f4c5; WORD $0x2099             // vaddps    ymm3, ymm1, yword [rcx + 4*rbx + 32]
+	LONG $0x6458f4c5; WORD $0x4099             // vaddps    ymm4, ymm1, yword [rcx + 4*rbx + 64]
+	LONG $0x4c58f4c5; WORD $0x6099             // vaddps    ymm1, ymm1, yword [rcx + 4*rbx + 96]
+	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
+	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
+	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
+	LONG $0x117cc1c4; WORD $0x984c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm1
+
+LBB2_717:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB2_3
+	JMP  LBB2_718
+
+LBB2_722:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_723:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_725
+	LONG $0x0cfcfdc5; BYTE $0x19               // vpaddb    ymm1, ymm0, yword [rcx + rbx]
+	LONG $0x54fcfdc5; WORD $0x2019             // vpaddb    ymm2, ymm0, yword [rcx + rbx + 32]
+	LONG $0x5cfcfdc5; WORD $0x4019             // vpaddb    ymm3, ymm0, yword [rcx + rbx + 64]
+	LONG $0x44fcfdc5; WORD $0x6019             // vpaddb    ymm0, ymm0, yword [rcx + rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+
+LBB2_725:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_3
+	JMP  LBB2_726
+
+LBB2_730:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_731:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_733
+	LONG $0x0cfefdc5; BYTE $0x99               // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx]
+	LONG $0x54fefdc5; WORD $0x2099             // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
+	LONG $0x5cfefdc5; WORD $0x4099             // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
+	LONG $0x44fefdc5; WORD $0x6099             // vpaddd    ymm0, ymm0, yword [rcx + 4*rbx + 96]
+	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
+	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+
+LBB2_733:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_3
+	JMP  LBB2_734
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.go b/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.go
new file mode 100644
index 00000000000..6e5d6504bc6
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.go
@@ -0,0 +1,46 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build !noasm
+
+package kernels
+
+import (
+	"unsafe"
+
+	"github.com/apache/arrow/go/v10/arrow"
+)
+
+//go:noescape
+func _arithmetic_sse4(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
+
+func arithmeticSSE4(typ arrow.Type, op ArithmeticOp, left, right, out []byte, len int) {
+	_arithmetic_sse4(int(typ), int8(op), unsafe.Pointer(&left[0]), unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), len)
+}
+
+//go:noescape
+func _arithmetic_arr_scalar_sse4(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
+
+func arithmeticArrScalarSSE4(typ arrow.Type, op ArithmeticOp, left []byte, right unsafe.Pointer, out []byte, len int) {
+	_arithmetic_arr_scalar_sse4(int(typ), int8(op), unsafe.Pointer(&left[0]), right, unsafe.Pointer(&out[0]), len)
+}
+
+//go:noescape
+func _arithmetic_scalar_arr_sse4(typ int, op int8, inLeft, inRight, out unsafe.Pointer, len int)
+
+func arithmeticScalarArrSSE4(typ arrow.Type, op ArithmeticOp, left unsafe.Pointer, right, out []byte, len int) {
+	_arithmetic_scalar_arr_sse4(int(typ), int8(op), left, unsafe.Pointer(&right[0]), unsafe.Pointer(&out[0]), len)
+}
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s b/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s
new file mode 100644
index 00000000000..119848f18b6
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s
@@ -0,0 +1,13806 @@
+//+build !noasm !appengine
+// AUTO-GENERATED BY C2GOASM -- DO NOT EDIT
+
+TEXT ·_arithmetic_sse4(SB), $0-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ op+8(FP), SI
+	MOVQ inLeft+16(FP), DX
+	MOVQ inRight+24(FP), CX
+	MOVQ out+32(FP), R8
+	MOVQ len+40(FP), R9
+
+	LONG $0x01fe8040         // cmp    sil, 1
+	JG   LBB0_3
+	WORD $0x8440; BYTE $0xf6 // test    sil, sil
+	JE   LBB0_5
+	LONG $0x01fe8040         // cmp    sil, 1
+	JNE  LBB0_697
+
+LBB0_178:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_191
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_180
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_232
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_248
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_264
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_273:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_275
+
+LBB0_274:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB0_274
+
+LBB0_275:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_351
+
+LBB0_276:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_276
+	JMP  LBB0_351
+
+LBB0_3:
+	LONG $0x02fe8040 // cmp    sil, 2
+	JE   LBB0_351
+	LONG $0x03fe8040 // cmp    sil, 3
+	JNE  LBB0_697
+
+LBB0_524:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_537
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_526
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_578
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_594
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_697
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_610
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_619:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_621
+
+LBB0_620:
+	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
+	WORD $0x1c2b; BYTE $0xb1 // sub    ebx, dword [rcx + 4*rsi]
+	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_620
+
+LBB0_621:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_697
+
+LBB0_622:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_622
+	JMP  LBB0_697
+
+LBB0_537:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_538
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_652
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_668
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_697
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_684
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_693:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_695
+
+LBB0_694:
+	LONG $0x04100ff2; BYTE $0xf2   // movsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045c0ff2; BYTE $0xf1   // subsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_694
+
+LBB0_695:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_697
+
+LBB0_696:
+	LONG $0x04100ff2; BYTE $0xf2               // movsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045c0ff2; BYTE $0xf1               // subsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x44100ff2; WORD $0x08f2             // movsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x445c0ff2; WORD $0x08f1             // subsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x44100ff2; WORD $0x10f2             // movsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x445c0ff2; WORD $0x10f1             // subsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x44100ff2; WORD $0x18f2             // movsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x445c0ff2; WORD $0x18f1             // subsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_696
+	JMP  LBB0_697
+
+LBB0_5:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_18
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_7
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_59
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_75
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_178
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_91
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_100:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_102
+
+LBB0_101:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB0_101
+
+LBB0_102:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_178
+
+LBB0_103:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_103
+	JMP  LBB0_178
+
+LBB0_191:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_192
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_306
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_322
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_338
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_347:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_349
+
+LBB0_348:
+	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x04580ff2; BYTE $0xf2   // addsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB0_348
+
+LBB0_349:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_351
+
+LBB0_350:
+	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x04580ff2; BYTE $0xf2               // addsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x44580ff2; WORD $0x08f2             // addsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x44580ff2; WORD $0x10f2             // addsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x44580ff2; WORD $0x18f2             // addsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_350
+	JMP  LBB0_351
+
+LBB0_18:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_19
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_133
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_149
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_178
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_165
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_174:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_176
+
+LBB0_175:
+	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x04580ff2; BYTE $0xf2   // addsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB0_175
+
+LBB0_176:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_178
+
+LBB0_177:
+	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x04580ff2; BYTE $0xf2               // addsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x44580ff2; WORD $0x08f2             // addsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x44580ff2; WORD $0x10f2             // addsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x44580ff2; WORD $0x18f2             // addsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_177
+	JMP  LBB0_178
+
+LBB0_526:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_549
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB0_697
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_565
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_574:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_576
+
+LBB0_575:
+	LONG $0x321cb60f         // movzx    ebx, byte [rdx + rsi]
+	WORD $0x1c2a; BYTE $0x31 // sub    bl, byte [rcx + rsi]
+	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_575
+
+LBB0_576:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_697
+
+LBB0_577:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_577
+	JMP  LBB0_697
+
+LBB0_538:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_623
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_697
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_639
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_648:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_650
+
+LBB0_649:
+	LONG $0xf21c8b48 // mov    rbx, qword [rdx + 8*rsi]
+	LONG $0xf11c2b48 // sub    rbx, qword [rcx + 8*rsi]
+	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_649
+
+LBB0_650:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_697
+
+LBB0_651:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_651
+	JMP  LBB0_697
+
+LBB0_180:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_203
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB0_351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_219
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_228:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_230
+
+LBB0_229:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB0_229
+
+LBB0_230:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_351
+
+LBB0_231:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_231
+	JMP  LBB0_351
+
+LBB0_192:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_277
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_351
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_293
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_302:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_304
+
+LBB0_303:
+	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc38348 // add    rbx, -1
+	JNE  LBB0_303
+
+LBB0_304:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_351
+
+LBB0_305:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_305
+	JMP  LBB0_351
+
+LBB0_578:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_581
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_590:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_592
+
+LBB0_591:
+	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
+	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_591
+
+LBB0_592:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_697
+
+LBB0_593:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_593
+	JMP  LBB0_697
+
+LBB0_594:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_597
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_606:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_608
+
+LBB0_607:
+	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
+	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_607
+
+LBB0_608:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_697
+
+LBB0_609:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_609
+	JMP  LBB0_697
+
+LBB0_652:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_655
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_664:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_666
+
+LBB0_665:
+	LONG $0xf21c8b48 // mov    rbx, qword [rdx + 8*rsi]
+	LONG $0xf11c2b48 // sub    rbx, qword [rcx + 8*rsi]
+	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_665
+
+LBB0_666:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_697
+
+LBB0_667:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_667
+	JMP  LBB0_697
+
+LBB0_668:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_671
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_680:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_682
+
+LBB0_681:
+	LONG $0x04100ff3; BYTE $0xb2   // movss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045c0ff3; BYTE $0xb1   // subss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_681
+
+LBB0_682:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_697
+
+LBB0_683:
+	LONG $0x04100ff3; BYTE $0xb2               // movss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045c0ff3; BYTE $0xb1               // subss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x44100ff3; WORD $0x04b2             // movss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x445c0ff3; WORD $0x04b1             // subss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x44100ff3; WORD $0x08b2             // movss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x445c0ff3; WORD $0x08b1             // subss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x44100ff3; WORD $0x0cb2             // movss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x445c0ff3; WORD $0x0cb1             // subss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_683
+	JMP  LBB0_697
+
+LBB0_549:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_552
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_561:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_563
+
+LBB0_562:
+	LONG $0x321cb60f         // movzx    ebx, byte [rdx + rsi]
+	WORD $0x1c2a; BYTE $0x31 // sub    bl, byte [rcx + rsi]
+	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_562
+
+LBB0_563:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_697
+
+LBB0_564:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_564
+	JMP  LBB0_697
+
+LBB0_623:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_626
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_635:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_637
+
+LBB0_636:
+	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
+	WORD $0x1c2b; BYTE $0xb1 // sub    ebx, dword [rcx + 4*rsi]
+	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_636
+
+LBB0_637:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_697
+
+LBB0_638:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_638
+	JMP  LBB0_697
+
+LBB0_7:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_30
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB0_178
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_46
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_55:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_57
+
+LBB0_56:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB0_56
+
+LBB0_57:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_178
+
+LBB0_58:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_58
+	JMP  LBB0_178
+
+LBB0_19:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_104
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_178
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_120
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_129:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_131
+
+LBB0_130:
+	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc38348 // add    rbx, -1
+	JNE  LBB0_130
+
+LBB0_131:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_178
+
+LBB0_132:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_132
+	JMP  LBB0_178
+
+LBB0_232:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_235
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_244:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_246
+
+LBB0_245:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB0_245
+
+LBB0_246:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_351
+
+LBB0_247:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_247
+	JMP  LBB0_351
+
+LBB0_248:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_251
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_260:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_262
+
+LBB0_261:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB0_261
+
+LBB0_262:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_351
+
+LBB0_263:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_263
+	JMP  LBB0_351
+
+LBB0_306:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_309
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_318:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_320
+
+LBB0_319:
+	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc38348 // add    rbx, -1
+	JNE  LBB0_319
+
+LBB0_320:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_351
+
+LBB0_321:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_321
+	JMP  LBB0_351
+
+LBB0_322:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_325
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_334:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_336
+
+LBB0_335:
+	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x04580ff3; BYTE $0xb2   // addss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB0_335
+
+LBB0_336:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_351
+
+LBB0_337:
+	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x04580ff3; BYTE $0xb2               // addss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x44580ff3; WORD $0x04b2             // addss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x44580ff3; WORD $0x08b2             // addss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x44580ff3; WORD $0x0cb2             // addss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_337
+	JMP  LBB0_351
+
+LBB0_203:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_206
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_215:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_217
+
+LBB0_216:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB0_216
+
+LBB0_217:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_351
+
+LBB0_218:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_218
+	JMP  LBB0_351
+
+LBB0_277:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_280
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_289:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_291
+
+LBB0_290:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB0_290
+
+LBB0_291:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_351
+
+LBB0_292:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_292
+	JMP  LBB0_351
+
+LBB0_59:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_62
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_71:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_73
+
+LBB0_72:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB0_72
+
+LBB0_73:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_178
+
+LBB0_74:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_74
+	JMP  LBB0_178
+
+LBB0_75:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_78
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_87:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_89
+
+LBB0_88:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB0_88
+
+LBB0_89:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_178
+
+LBB0_90:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_90
+	JMP  LBB0_178
+
+LBB0_133:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_136
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_145:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_147
+
+LBB0_146:
+	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc38348 // add    rbx, -1
+	JNE  LBB0_146
+
+LBB0_147:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_178
+
+LBB0_148:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_148
+	JMP  LBB0_178
+
+LBB0_149:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_152
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_161:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_163
+
+LBB0_162:
+	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x04580ff3; BYTE $0xb2   // addss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB0_162
+
+LBB0_163:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_178
+
+LBB0_164:
+	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x04580ff3; BYTE $0xb2               // addss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x44580ff3; WORD $0x04b2             // addss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x44580ff3; WORD $0x08b2             // addss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x44580ff3; WORD $0x0cb2             // addss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_164
+	JMP  LBB0_178
+
+LBB0_30:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_33
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_42:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_44
+
+LBB0_43:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB0_43
+
+LBB0_44:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_178
+
+LBB0_45:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_45
+	JMP  LBB0_178
+
+LBB0_104:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_107
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_116:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_118
+
+LBB0_117:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB0_117
+
+LBB0_118:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_178
+
+LBB0_119:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_119
+	JMP  LBB0_178
+
+LBB0_610:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_619
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_619
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_613
+	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_615:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_615
+	JMP  LBB0_616
+
+LBB0_684:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_693
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_693
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_687
+	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_689:
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x30f9             // movupd    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_689
+	JMP  LBB0_690
+
+LBB0_565:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_574
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_574
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_568
+	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_570:
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_570
+	JMP  LBB0_571
+
+LBB0_639:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_648
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_648
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_642
+	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_644:
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_644
+	JMP  LBB0_645
+
+LBB0_581:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_590
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_590
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_584
+	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_586:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_586
+	JMP  LBB0_587
+
+LBB0_597:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_606
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_606
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_600
+	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_602:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_602
+	JMP  LBB0_603
+
+LBB0_655:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_664
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_664
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_658
+	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_660:
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_660
+	JMP  LBB0_661
+
+LBB0_671:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_680
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_680
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_674
+	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_676:
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
+	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0xb954100f; BYTE $0x30   // movups    xmm2, oword [rcx + 4*rdi + 48]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x44110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x4c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c38348               // add    rbx, 2
+	JNE  LBB0_676
+	JMP  LBB0_677
+
+LBB0_552:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_561
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_561
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_555
+	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_557:
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_557
+	JMP  LBB0_558
+
+LBB0_626:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	JNE  LBB0_635
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_635
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_629
+	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_631:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_631
+	JMP  LBB0_632
+
+LBB0_264:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_273
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_273
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x03ebc149         // shr    r11, 3
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_267
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_269:
+	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
+	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1081             // movdqu    xmm0, oword [rcx + 4*rax + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x8014             // movdqu    oword [r8 + 4*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x2082             // movdqu    xmm0, oword [rdx + 4*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3082             // movdqu    xmm1, oword [rdx + 4*rax + 48]
+	LONG $0x546f0ff3; WORD $0x2081             // movdqu    xmm2, oword [rcx + 4*rax + 32]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3081             // movdqu    xmm0, oword [rcx + 4*rax + 48]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x8054; BYTE $0x20 // movdqu    oword [r8 + 4*rax + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x30 // movdqu    oword [r8 + 4*rax + 48], xmm0
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_269
+	JMP  LBB0_270
+
+LBB0_338:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_347
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_347
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x02ebc149         // shr    r11, 2
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_341
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_343:
+	LONG $0x04100f66; BYTE $0xc2               // movupd    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c100f66; WORD $0x10c2             // movupd    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x14100f66; BYTE $0xc1               // movupd    xmm2, oword [rcx + 8*rax]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10c1             // movupd    xmm0, oword [rcx + 8*rax + 16]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xc014             // movupd    oword [r8 + 8*rax], xmm2
+	LONG $0x110f4166; WORD $0xc044; BYTE $0x10 // movupd    oword [r8 + 8*rax + 16], xmm0
+	LONG $0x44100f66; WORD $0x20c2             // movupd    xmm0, oword [rdx + 8*rax + 32]
+	LONG $0x4c100f66; WORD $0x30c2             // movupd    xmm1, oword [rdx + 8*rax + 48]
+	LONG $0x54100f66; WORD $0x20c1             // movupd    xmm2, oword [rcx + 8*rax + 32]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x30c1             // movupd    xmm0, oword [rcx + 8*rax + 48]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xc054; BYTE $0x20 // movupd    oword [r8 + 8*rax + 32], xmm2
+	LONG $0x110f4166; WORD $0xc044; BYTE $0x30 // movupd    oword [r8 + 8*rax + 48], xmm0
+	LONG $0x08c08348                           // add    rax, 8
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_343
+	JMP  LBB0_344
+
+LBB0_219:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_228
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_228
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x05ebc149         // shr    r11, 5
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_222
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_224:
+	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
+	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
+	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x2002             // movdqu    xmm0, oword [rdx + rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3002             // movdqu    xmm1, oword [rdx + rax + 48]
+	LONG $0x546f0ff3; WORD $0x2001             // movdqu    xmm2, oword [rcx + rax + 32]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3001             // movdqu    xmm0, oword [rcx + rax + 48]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm0
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_224
+	JMP  LBB0_225
+
+LBB0_293:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_302
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_302
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x02ebc149         // shr    r11, 2
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_296
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_298:
+	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10c1             // movdqu    xmm0, oword [rcx + 8*rax + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xc014             // movdqu    oword [r8 + 8*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20c2             // movdqu    xmm0, oword [rdx + 8*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x30c2             // movdqu    xmm1, oword [rdx + 8*rax + 48]
+	LONG $0x546f0ff3; WORD $0x20c1             // movdqu    xmm2, oword [rcx + 8*rax + 32]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30c1             // movdqu    xmm0, oword [rcx + 8*rax + 48]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xc054; BYTE $0x20 // movdqu    oword [r8 + 8*rax + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x30 // movdqu    oword [r8 + 8*rax + 48], xmm0
+	LONG $0x08c08348                           // add    rax, 8
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_298
+	JMP  LBB0_299
+
+LBB0_235:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_244
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_244
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x04ebc149         // shr    r11, 4
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_238
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_240:
+	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
+	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1041             // movdqu    xmm0, oword [rcx + 2*rax + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x4014             // movdqu    oword [r8 + 2*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x2042             // movdqu    xmm0, oword [rdx + 2*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3042             // movdqu    xmm1, oword [rdx + 2*rax + 48]
+	LONG $0x546f0ff3; WORD $0x2041             // movdqu    xmm2, oword [rcx + 2*rax + 32]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3041             // movdqu    xmm0, oword [rcx + 2*rax + 48]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x4054; BYTE $0x20 // movdqu    oword [r8 + 2*rax + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x30 // movdqu    oword [r8 + 2*rax + 48], xmm0
+	LONG $0x20c08348                           // add    rax, 32
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_240
+	JMP  LBB0_241
+
+LBB0_251:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_260
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_260
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x04ebc149         // shr    r11, 4
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_254
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_256:
+	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
+	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1041             // movdqu    xmm0, oword [rcx + 2*rax + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x4014             // movdqu    oword [r8 + 2*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x2042             // movdqu    xmm0, oword [rdx + 2*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3042             // movdqu    xmm1, oword [rdx + 2*rax + 48]
+	LONG $0x546f0ff3; WORD $0x2041             // movdqu    xmm2, oword [rcx + 2*rax + 32]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3041             // movdqu    xmm0, oword [rcx + 2*rax + 48]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x4054; BYTE $0x20 // movdqu    oword [r8 + 2*rax + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x30 // movdqu    oword [r8 + 2*rax + 48], xmm0
+	LONG $0x20c08348                           // add    rax, 32
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_256
+	JMP  LBB0_257
+
+LBB0_309:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_318
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_318
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x02ebc149         // shr    r11, 2
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_312
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_314:
+	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10c1             // movdqu    xmm0, oword [rcx + 8*rax + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xc014             // movdqu    oword [r8 + 8*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20c2             // movdqu    xmm0, oword [rdx + 8*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x30c2             // movdqu    xmm1, oword [rdx + 8*rax + 48]
+	LONG $0x546f0ff3; WORD $0x20c1             // movdqu    xmm2, oword [rcx + 8*rax + 32]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30c1             // movdqu    xmm0, oword [rcx + 8*rax + 48]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xc054; BYTE $0x20 // movdqu    oword [r8 + 8*rax + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x30 // movdqu    oword [r8 + 8*rax + 48], xmm0
+	LONG $0x08c08348                           // add    rax, 8
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_314
+	JMP  LBB0_315
+
+LBB0_325:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_334
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_334
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x03ebc149         // shr    r11, 3
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_328
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_330:
+	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
+	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x8114100f               // movups    xmm2, oword [rcx + 4*rax]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0x8144100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rax + 16]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0x80   // movups    oword [r8 + 4*rax], xmm2
+	LONG $0x44110f41; WORD $0x1080 // movups    oword [r8 + 4*rax + 16], xmm0
+	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
+	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
+	LONG $0x8154100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rax + 32]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0x8144100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rax + 48]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x54110f41; WORD $0x2080 // movups    oword [r8 + 4*rax + 32], xmm2
+	LONG $0x44110f41; WORD $0x3080 // movups    oword [r8 + 4*rax + 48], xmm0
+	LONG $0x10c08348               // add    rax, 16
+	LONG $0x02c38348               // add    rbx, 2
+	JNE  LBB0_330
+	JMP  LBB0_331
+
+LBB0_206:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_215
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_215
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x05ebc149         // shr    r11, 5
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_209
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_211:
+	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
+	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
+	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x2002             // movdqu    xmm0, oword [rdx + rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3002             // movdqu    xmm1, oword [rdx + rax + 48]
+	LONG $0x546f0ff3; WORD $0x2001             // movdqu    xmm2, oword [rcx + rax + 32]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3001             // movdqu    xmm0, oword [rcx + rax + 48]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm0
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_211
+	JMP  LBB0_212
+
+LBB0_280:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_289
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_289
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x03ebc149         // shr    r11, 3
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_283
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_285:
+	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
+	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1081             // movdqu    xmm0, oword [rcx + 4*rax + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x8014             // movdqu    oword [r8 + 4*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x2082             // movdqu    xmm0, oword [rdx + 4*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3082             // movdqu    xmm1, oword [rdx + 4*rax + 48]
+	LONG $0x546f0ff3; WORD $0x2081             // movdqu    xmm2, oword [rcx + 4*rax + 32]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3081             // movdqu    xmm0, oword [rcx + 4*rax + 48]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x8054; BYTE $0x20 // movdqu    oword [r8 + 4*rax + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x30 // movdqu    oword [r8 + 4*rax + 48], xmm0
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_285
+	JMP  LBB0_286
+
+LBB0_91:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_100
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_100
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x03ebc149         // shr    r11, 3
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_94
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_96:
+	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
+	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1081             // movdqu    xmm0, oword [rcx + 4*rax + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x8014             // movdqu    oword [r8 + 4*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x2082             // movdqu    xmm0, oword [rdx + 4*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3082             // movdqu    xmm1, oword [rdx + 4*rax + 48]
+	LONG $0x546f0ff3; WORD $0x2081             // movdqu    xmm2, oword [rcx + 4*rax + 32]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3081             // movdqu    xmm0, oword [rcx + 4*rax + 48]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x8054; BYTE $0x20 // movdqu    oword [r8 + 4*rax + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x30 // movdqu    oword [r8 + 4*rax + 48], xmm0
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_96
+	JMP  LBB0_97
+
+LBB0_165:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_174
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_174
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x02ebc149         // shr    r11, 2
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_168
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_170:
+	LONG $0x04100f66; BYTE $0xc2               // movupd    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c100f66; WORD $0x10c2             // movupd    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x14100f66; BYTE $0xc1               // movupd    xmm2, oword [rcx + 8*rax]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10c1             // movupd    xmm0, oword [rcx + 8*rax + 16]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xc014             // movupd    oword [r8 + 8*rax], xmm2
+	LONG $0x110f4166; WORD $0xc044; BYTE $0x10 // movupd    oword [r8 + 8*rax + 16], xmm0
+	LONG $0x44100f66; WORD $0x20c2             // movupd    xmm0, oword [rdx + 8*rax + 32]
+	LONG $0x4c100f66; WORD $0x30c2             // movupd    xmm1, oword [rdx + 8*rax + 48]
+	LONG $0x54100f66; WORD $0x20c1             // movupd    xmm2, oword [rcx + 8*rax + 32]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x30c1             // movupd    xmm0, oword [rcx + 8*rax + 48]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xc054; BYTE $0x20 // movupd    oword [r8 + 8*rax + 32], xmm2
+	LONG $0x110f4166; WORD $0xc044; BYTE $0x30 // movupd    oword [r8 + 8*rax + 48], xmm0
+	LONG $0x08c08348                           // add    rax, 8
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_170
+	JMP  LBB0_171
+
+LBB0_46:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_55
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_55
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x05ebc149         // shr    r11, 5
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_49
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_51:
+	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
+	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
+	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x2002             // movdqu    xmm0, oword [rdx + rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3002             // movdqu    xmm1, oword [rdx + rax + 48]
+	LONG $0x546f0ff3; WORD $0x2001             // movdqu    xmm2, oword [rcx + rax + 32]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3001             // movdqu    xmm0, oword [rcx + rax + 48]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm0
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_51
+	JMP  LBB0_52
+
+LBB0_120:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_129
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_129
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x02ebc149         // shr    r11, 2
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_123
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_125:
+	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10c1             // movdqu    xmm0, oword [rcx + 8*rax + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xc014             // movdqu    oword [r8 + 8*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20c2             // movdqu    xmm0, oword [rdx + 8*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x30c2             // movdqu    xmm1, oword [rdx + 8*rax + 48]
+	LONG $0x546f0ff3; WORD $0x20c1             // movdqu    xmm2, oword [rcx + 8*rax + 32]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30c1             // movdqu    xmm0, oword [rcx + 8*rax + 48]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xc054; BYTE $0x20 // movdqu    oword [r8 + 8*rax + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x30 // movdqu    oword [r8 + 8*rax + 48], xmm0
+	LONG $0x08c08348                           // add    rax, 8
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_125
+	JMP  LBB0_126
+
+LBB0_62:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_71
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_71
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x04ebc149         // shr    r11, 4
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_65
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_67:
+	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
+	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1041             // movdqu    xmm0, oword [rcx + 2*rax + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x4014             // movdqu    oword [r8 + 2*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x2042             // movdqu    xmm0, oword [rdx + 2*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3042             // movdqu    xmm1, oword [rdx + 2*rax + 48]
+	LONG $0x546f0ff3; WORD $0x2041             // movdqu    xmm2, oword [rcx + 2*rax + 32]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3041             // movdqu    xmm0, oword [rcx + 2*rax + 48]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x4054; BYTE $0x20 // movdqu    oword [r8 + 2*rax + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x30 // movdqu    oword [r8 + 2*rax + 48], xmm0
+	LONG $0x20c08348                           // add    rax, 32
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_67
+	JMP  LBB0_68
+
+LBB0_78:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_87
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_87
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x04ebc149         // shr    r11, 4
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_81
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_83:
+	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
+	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1041             // movdqu    xmm0, oword [rcx + 2*rax + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x4014             // movdqu    oword [r8 + 2*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x2042             // movdqu    xmm0, oword [rdx + 2*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3042             // movdqu    xmm1, oword [rdx + 2*rax + 48]
+	LONG $0x546f0ff3; WORD $0x2041             // movdqu    xmm2, oword [rcx + 2*rax + 32]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3041             // movdqu    xmm0, oword [rcx + 2*rax + 48]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x4054; BYTE $0x20 // movdqu    oword [r8 + 2*rax + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x30 // movdqu    oword [r8 + 2*rax + 48], xmm0
+	LONG $0x20c08348                           // add    rax, 32
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_83
+	JMP  LBB0_84
+
+LBB0_136:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_145
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_145
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x02ebc149         // shr    r11, 2
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_139
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_141:
+	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10c1             // movdqu    xmm0, oword [rcx + 8*rax + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xc014             // movdqu    oword [r8 + 8*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20c2             // movdqu    xmm0, oword [rdx + 8*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x30c2             // movdqu    xmm1, oword [rdx + 8*rax + 48]
+	LONG $0x546f0ff3; WORD $0x20c1             // movdqu    xmm2, oword [rcx + 8*rax + 32]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30c1             // movdqu    xmm0, oword [rcx + 8*rax + 48]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xc054; BYTE $0x20 // movdqu    oword [r8 + 8*rax + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x30 // movdqu    oword [r8 + 8*rax + 48], xmm0
+	LONG $0x08c08348                           // add    rax, 8
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_141
+	JMP  LBB0_142
+
+LBB0_152:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_161
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_161
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x03ebc149         // shr    r11, 3
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_155
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_157:
+	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
+	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x8114100f               // movups    xmm2, oword [rcx + 4*rax]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0x8144100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rax + 16]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0x80   // movups    oword [r8 + 4*rax], xmm2
+	LONG $0x44110f41; WORD $0x1080 // movups    oword [r8 + 4*rax + 16], xmm0
+	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
+	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
+	LONG $0x8154100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rax + 32]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0x8144100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rax + 48]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x54110f41; WORD $0x2080 // movups    oword [r8 + 4*rax + 32], xmm2
+	LONG $0x44110f41; WORD $0x3080 // movups    oword [r8 + 4*rax + 48], xmm0
+	LONG $0x10c08348               // add    rax, 16
+	LONG $0x02c38348               // add    rbx, 2
+	JNE  LBB0_157
+	JMP  LBB0_158
+
+LBB0_33:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_42
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_42
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x05ebc149         // shr    r11, 5
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_36
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_38:
+	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
+	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
+	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x2002             // movdqu    xmm0, oword [rdx + rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3002             // movdqu    xmm1, oword [rdx + rax + 48]
+	LONG $0x546f0ff3; WORD $0x2001             // movdqu    xmm2, oword [rcx + rax + 32]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3001             // movdqu    xmm0, oword [rcx + rax + 48]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm0
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_38
+	JMP  LBB0_39
+
+LBB0_107:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_116
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_116
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x03ebc149         // shr    r11, 3
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_110
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_112:
+	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
+	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1081             // movdqu    xmm0, oword [rcx + 4*rax + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x8014             // movdqu    oword [r8 + 4*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x2082             // movdqu    xmm0, oword [rdx + 4*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3082             // movdqu    xmm1, oword [rdx + 4*rax + 48]
+	LONG $0x546f0ff3; WORD $0x2081             // movdqu    xmm2, oword [rcx + 4*rax + 32]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3081             // movdqu    xmm0, oword [rcx + 4*rax + 48]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x8054; BYTE $0x20 // movdqu    oword [r8 + 4*rax + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x30 // movdqu    oword [r8 + 4*rax + 48], xmm0
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_112
+	JMP  LBB0_113
+
+LBB0_613:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_616:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_618
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+
+LBB0_618:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_619
+	JMP  LBB0_697
+
+LBB0_687:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_690:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_692
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
+
+LBB0_692:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_693
+	JMP  LBB0_697
+
+LBB0_568:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_571:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_573
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+
+LBB0_573:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_574
+	JMP  LBB0_697
+
+LBB0_642:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_645:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_647
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+
+LBB0_647:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_648
+	JMP  LBB0_697
+
+LBB0_584:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_587:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_589
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+
+LBB0_589:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_590
+	JMP  LBB0_697
+
+LBB0_600:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_603:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_605
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+
+LBB0_605:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_606
+	JMP  LBB0_697
+
+LBB0_658:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_661:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_663
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+
+LBB0_663:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_664
+	JMP  LBB0_697
+
+LBB0_674:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_677:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB0_679
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
+	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
+
+LBB0_679:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_680
+	JMP  LBB0_697
+
+LBB0_555:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_558:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_560
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+
+LBB0_560:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_561
+	JMP  LBB0_697
+
+LBB0_629:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_632:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_634
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+
+LBB0_634:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_635
+	JMP  LBB0_697
+
+LBB0_267:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_270:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_272
+	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
+	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1081             // movdqu    xmm0, oword [rcx + 4*rax + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x8014             // movdqu    oword [r8 + 4*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm0
+
+LBB0_272:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_273
+	JMP  LBB0_351
+
+LBB0_341:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_344:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_346
+	LONG $0x04100f66; BYTE $0xc2               // movupd    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c100f66; WORD $0x10c2             // movupd    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x14100f66; BYTE $0xc1               // movupd    xmm2, oword [rcx + 8*rax]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10c1             // movupd    xmm0, oword [rcx + 8*rax + 16]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xc014             // movupd    oword [r8 + 8*rax], xmm2
+	LONG $0x110f4166; WORD $0xc044; BYTE $0x10 // movupd    oword [r8 + 8*rax + 16], xmm0
+
+LBB0_346:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_347
+	JMP  LBB0_351
+
+LBB0_222:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_225:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_227
+	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
+	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
+	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm0
+
+LBB0_227:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_228
+	JMP  LBB0_351
+
+LBB0_296:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_299:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_301
+	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10c1             // movdqu    xmm0, oword [rcx + 8*rax + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xc014             // movdqu    oword [r8 + 8*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm0
+
+LBB0_301:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_302
+	JMP  LBB0_351
+
+LBB0_238:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_241:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_243
+	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
+	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1041             // movdqu    xmm0, oword [rcx + 2*rax + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x4014             // movdqu    oword [r8 + 2*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm0
+
+LBB0_243:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_244
+	JMP  LBB0_351
+
+LBB0_254:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_257:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_259
+	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
+	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1041             // movdqu    xmm0, oword [rcx + 2*rax + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x4014             // movdqu    oword [r8 + 2*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm0
+
+LBB0_259:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_260
+	JMP  LBB0_351
+
+LBB0_312:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_315:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_317
+	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10c1             // movdqu    xmm0, oword [rcx + 8*rax + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xc014             // movdqu    oword [r8 + 8*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm0
+
+LBB0_317:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_318
+	JMP  LBB0_351
+
+LBB0_328:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_331:
+	LONG $0x01c3f641               // test    r11b, 1
+	JE   LBB0_333
+	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
+	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x8114100f               // movups    xmm2, oword [rcx + 4*rax]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0x8144100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rax + 16]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0x80   // movups    oword [r8 + 4*rax], xmm2
+	LONG $0x44110f41; WORD $0x1080 // movups    oword [r8 + 4*rax + 16], xmm0
+
+LBB0_333:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_334
+	JMP  LBB0_351
+
+LBB0_209:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_212:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_214
+	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
+	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
+	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm0
+
+LBB0_214:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_215
+	JMP  LBB0_351
+
+LBB0_283:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_286:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_288
+	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
+	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1081             // movdqu    xmm0, oword [rcx + 4*rax + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x8014             // movdqu    oword [r8 + 4*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm0
+
+LBB0_288:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_289
+
+LBB0_351:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_364
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_353
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_405
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_421
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_524
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_437
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_446
+
+LBB0_364:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_365
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_479
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_495
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_524
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_511
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_520
+
+LBB0_353:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_376
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB0_524
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_392
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_401
+
+LBB0_365:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_450
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_524
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_466
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_475
+
+LBB0_405:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_408
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_417
+
+LBB0_421:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_424
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_433
+
+LBB0_479:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_482
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_491
+
+LBB0_495:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_498
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_507
+
+LBB0_376:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_379
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_388
+
+LBB0_450:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_453
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_462
+
+LBB0_697:
+	RET
+
+LBB0_437:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_446
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_446
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x03ebc149         // shr    r11, 3
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_440
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_442:
+	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
+	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1081             // movdqu    xmm2, oword [rcx + 4*rax + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x8004             // movdqu    oword [r8 + 4*rax], xmm0
+	LONG $0x7f0f41f3; WORD $0x804c; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x2082             // movdqu    xmm0, oword [rdx + 4*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3082             // movdqu    xmm1, oword [rdx + 4*rax + 48]
+	LONG $0x546f0ff3; WORD $0x2081             // movdqu    xmm2, oword [rcx + 4*rax + 32]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3081             // movdqu    xmm2, oword [rcx + 4*rax + 48]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x20 // movdqu    oword [r8 + 4*rax + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x804c; BYTE $0x30 // movdqu    oword [r8 + 4*rax + 48], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_442
+	JMP  LBB0_443
+
+LBB0_511:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_520
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_520
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x02ebc149         // shr    r11, 2
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_514
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_516:
+	LONG $0x04100f66; BYTE $0xc2               // movupd    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c100f66; WORD $0x10c2             // movupd    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x14100f66; BYTE $0xc1               // movupd    xmm2, oword [rcx + 8*rax]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x10c1             // movupd    xmm2, oword [rcx + 8*rax + 16]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xc004             // movupd    oword [r8 + 8*rax], xmm0
+	LONG $0x110f4166; WORD $0xc04c; BYTE $0x10 // movupd    oword [r8 + 8*rax + 16], xmm1
+	LONG $0x44100f66; WORD $0x20c2             // movupd    xmm0, oword [rdx + 8*rax + 32]
+	LONG $0x4c100f66; WORD $0x30c2             // movupd    xmm1, oword [rdx + 8*rax + 48]
+	LONG $0x54100f66; WORD $0x20c1             // movupd    xmm2, oword [rcx + 8*rax + 32]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x30c1             // movupd    xmm2, oword [rcx + 8*rax + 48]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xc044; BYTE $0x20 // movupd    oword [r8 + 8*rax + 32], xmm0
+	LONG $0x110f4166; WORD $0xc04c; BYTE $0x30 // movupd    oword [r8 + 8*rax + 48], xmm1
+	LONG $0x08c08348                           // add    rax, 8
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_516
+	JMP  LBB0_517
+
+LBB0_392:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_401
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_401
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x05ebc149         // shr    r11, 5
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_395
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_397:
+	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
+	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
+	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1001             // movdqu    xmm2, oword [rcx + rax + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x0004             // movdqu    oword [r8 + rax], xmm0
+	LONG $0x7f0f41f3; WORD $0x004c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x2002             // movdqu    xmm0, oword [rdx + rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3002             // movdqu    xmm1, oword [rdx + rax + 48]
+	LONG $0x546f0ff3; WORD $0x2001             // movdqu    xmm2, oword [rcx + rax + 32]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3001             // movdqu    xmm2, oword [rcx + rax + 48]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x004c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm1
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_397
+	JMP  LBB0_398
+
+LBB0_466:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_475
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_475
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x02ebc149         // shr    r11, 2
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_469
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_471:
+	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10c1             // movdqu    xmm2, oword [rcx + 8*rax + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xc004             // movdqu    oword [r8 + 8*rax], xmm0
+	LONG $0x7f0f41f3; WORD $0xc04c; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20c2             // movdqu    xmm0, oword [rdx + 8*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x30c2             // movdqu    xmm1, oword [rdx + 8*rax + 48]
+	LONG $0x546f0ff3; WORD $0x20c1             // movdqu    xmm2, oword [rcx + 8*rax + 32]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30c1             // movdqu    xmm2, oword [rcx + 8*rax + 48]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x20 // movdqu    oword [r8 + 8*rax + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xc04c; BYTE $0x30 // movdqu    oword [r8 + 8*rax + 48], xmm1
+	LONG $0x08c08348                           // add    rax, 8
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_471
+	JMP  LBB0_472
+
+LBB0_408:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_417
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_417
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x04ebc149         // shr    r11, 4
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_411
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_413:
+	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
+	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1041             // movdqu    xmm2, oword [rcx + 2*rax + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x4004             // movdqu    oword [r8 + 2*rax], xmm0
+	LONG $0x7f0f41f3; WORD $0x404c; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x2042             // movdqu    xmm0, oword [rdx + 2*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3042             // movdqu    xmm1, oword [rdx + 2*rax + 48]
+	LONG $0x546f0ff3; WORD $0x2041             // movdqu    xmm2, oword [rcx + 2*rax + 32]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3041             // movdqu    xmm2, oword [rcx + 2*rax + 48]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x20 // movdqu    oword [r8 + 2*rax + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x404c; BYTE $0x30 // movdqu    oword [r8 + 2*rax + 48], xmm1
+	LONG $0x20c08348                           // add    rax, 32
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_413
+	JMP  LBB0_414
+
+LBB0_424:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_433
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_433
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x04ebc149         // shr    r11, 4
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_427
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_429:
+	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
+	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1041             // movdqu    xmm2, oword [rcx + 2*rax + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x4004             // movdqu    oword [r8 + 2*rax], xmm0
+	LONG $0x7f0f41f3; WORD $0x404c; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x2042             // movdqu    xmm0, oword [rdx + 2*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3042             // movdqu    xmm1, oword [rdx + 2*rax + 48]
+	LONG $0x546f0ff3; WORD $0x2041             // movdqu    xmm2, oword [rcx + 2*rax + 32]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3041             // movdqu    xmm2, oword [rcx + 2*rax + 48]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x20 // movdqu    oword [r8 + 2*rax + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x404c; BYTE $0x30 // movdqu    oword [r8 + 2*rax + 48], xmm1
+	LONG $0x20c08348                           // add    rax, 32
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_429
+	JMP  LBB0_430
+
+LBB0_482:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_491
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_491
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x02ebc149         // shr    r11, 2
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_485
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_487:
+	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10c1             // movdqu    xmm2, oword [rcx + 8*rax + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xc004             // movdqu    oword [r8 + 8*rax], xmm0
+	LONG $0x7f0f41f3; WORD $0xc04c; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20c2             // movdqu    xmm0, oword [rdx + 8*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x30c2             // movdqu    xmm1, oword [rdx + 8*rax + 48]
+	LONG $0x546f0ff3; WORD $0x20c1             // movdqu    xmm2, oword [rcx + 8*rax + 32]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30c1             // movdqu    xmm2, oword [rcx + 8*rax + 48]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x20 // movdqu    oword [r8 + 8*rax + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xc04c; BYTE $0x30 // movdqu    oword [r8 + 8*rax + 48], xmm1
+	LONG $0x08c08348                           // add    rax, 8
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_487
+	JMP  LBB0_488
+
+LBB0_498:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_507
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_507
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x03ebc149         // shr    r11, 3
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_501
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_503:
+	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
+	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x8114100f               // movups    xmm2, oword [rcx + 4*rax]
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0x8154100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rax + 16]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x04110f41; BYTE $0x80   // movups    oword [r8 + 4*rax], xmm0
+	LONG $0x4c110f41; WORD $0x1080 // movups    oword [r8 + 4*rax + 16], xmm1
+	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
+	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
+	LONG $0x8154100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rax + 32]
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0x8154100f; BYTE $0x30   // movups    xmm2, oword [rcx + 4*rax + 48]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x44110f41; WORD $0x2080 // movups    oword [r8 + 4*rax + 32], xmm0
+	LONG $0x4c110f41; WORD $0x3080 // movups    oword [r8 + 4*rax + 48], xmm1
+	LONG $0x10c08348               // add    rax, 16
+	LONG $0x02c38348               // add    rbx, 2
+	JNE  LBB0_503
+	JMP  LBB0_504
+
+LBB0_379:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_388
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_388
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x05ebc149         // shr    r11, 5
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_382
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_384:
+	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
+	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
+	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1001             // movdqu    xmm2, oword [rcx + rax + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x0004             // movdqu    oword [r8 + rax], xmm0
+	LONG $0x7f0f41f3; WORD $0x004c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x2002             // movdqu    xmm0, oword [rdx + rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3002             // movdqu    xmm1, oword [rdx + rax + 48]
+	LONG $0x546f0ff3; WORD $0x2001             // movdqu    xmm2, oword [rcx + rax + 32]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3001             // movdqu    xmm2, oword [rcx + rax + 48]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x004c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm1
+	LONG $0x40c08348                           // add    rax, 64
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_384
+	JMP  LBB0_385
+
+LBB0_453:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd6970f41         // seta    r14b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	WORD $0x970f; BYTE $0xd3 // seta    bl
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8441; BYTE $0xde // test    r14b, bl
+	JNE  LBB0_462
+	WORD $0x2044; BYTE $0xd8 // and    al, r11b
+	JNE  LBB0_462
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
+	LONG $0x03ebc149         // shr    r11, 3
+	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_456
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0xfee38348         // and    rbx, -2
+	WORD $0xf748; BYTE $0xdb // neg    rbx
+	WORD $0xc031             // xor    eax, eax
+
+LBB0_458:
+	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
+	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1081             // movdqu    xmm2, oword [rcx + 4*rax + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x8004             // movdqu    oword [r8 + 4*rax], xmm0
+	LONG $0x7f0f41f3; WORD $0x804c; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x2082             // movdqu    xmm0, oword [rdx + 4*rax + 32]
+	LONG $0x4c6f0ff3; WORD $0x3082             // movdqu    xmm1, oword [rdx + 4*rax + 48]
+	LONG $0x546f0ff3; WORD $0x2081             // movdqu    xmm2, oword [rcx + 4*rax + 32]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3081             // movdqu    xmm2, oword [rcx + 4*rax + 48]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x20 // movdqu    oword [r8 + 4*rax + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x804c; BYTE $0x30 // movdqu    oword [r8 + 4*rax + 48], xmm1
+	LONG $0x10c08348                           // add    rax, 16
+	LONG $0x02c38348                           // add    rbx, 2
+	JNE  LBB0_458
+	JMP  LBB0_459
+
+LBB0_440:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_443:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_445
+	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
+	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1081             // movdqu    xmm2, oword [rcx + 4*rax + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x8004             // movdqu    oword [r8 + 4*rax], xmm0
+	LONG $0x7f0f41f3; WORD $0x804c; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm1
+
+LBB0_445:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_524
+
+LBB0_446:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_448
+
+LBB0_447:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB0_447
+
+LBB0_448:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_524
+
+LBB0_449:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_449
+	JMP  LBB0_524
+
+LBB0_514:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_517:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_519
+	LONG $0x04100f66; BYTE $0xc2               // movupd    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c100f66; WORD $0x10c2             // movupd    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x14100f66; BYTE $0xc1               // movupd    xmm2, oword [rcx + 8*rax]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x10c1             // movupd    xmm2, oword [rcx + 8*rax + 16]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xc004             // movupd    oword [r8 + 8*rax], xmm0
+	LONG $0x110f4166; WORD $0xc04c; BYTE $0x10 // movupd    oword [r8 + 8*rax + 16], xmm1
+
+LBB0_519:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_524
+
+LBB0_520:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_522
+
+LBB0_521:
+	LONG $0x04100ff2; BYTE $0xf2   // movsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045c0ff2; BYTE $0xf1   // subsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB0_521
+
+LBB0_522:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_524
+
+LBB0_523:
+	LONG $0x04100ff2; BYTE $0xf2               // movsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045c0ff2; BYTE $0xf1               // subsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x44100ff2; WORD $0x08f2             // movsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x445c0ff2; WORD $0x08f1             // subsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x44100ff2; WORD $0x10f2             // movsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x445c0ff2; WORD $0x10f1             // subsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x44100ff2; WORD $0x18f2             // movsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x445c0ff2; WORD $0x18f1             // subsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_523
+	JMP  LBB0_524
+
+LBB0_395:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_398:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_400
+	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
+	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
+	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1001             // movdqu    xmm2, oword [rcx + rax + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x0004             // movdqu    oword [r8 + rax], xmm0
+	LONG $0x7f0f41f3; WORD $0x004c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm1
+
+LBB0_400:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_524
+
+LBB0_401:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_403
+
+LBB0_402:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB0_402
+
+LBB0_403:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_524
+
+LBB0_404:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_404
+	JMP  LBB0_524
+
+LBB0_469:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_472:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_474
+	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10c1             // movdqu    xmm2, oword [rcx + 8*rax + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xc004             // movdqu    oword [r8 + 8*rax], xmm0
+	LONG $0x7f0f41f3; WORD $0xc04c; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm1
+
+LBB0_474:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_524
+
+LBB0_475:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_477
+
+LBB0_476:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc38348 // add    rbx, -1
+	JNE  LBB0_476
+
+LBB0_477:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_524
+
+LBB0_478:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_478
+	JMP  LBB0_524
+
+LBB0_411:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_414:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_416
+	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
+	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1041             // movdqu    xmm2, oword [rcx + 2*rax + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x4004             // movdqu    oword [r8 + 2*rax], xmm0
+	LONG $0x7f0f41f3; WORD $0x404c; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm1
+
+LBB0_416:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_524
+
+LBB0_417:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_419
+
+LBB0_418:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB0_418
+
+LBB0_419:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_524
+
+LBB0_420:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_420
+	JMP  LBB0_524
+
+LBB0_427:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_430:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_432
+	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
+	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1041             // movdqu    xmm2, oword [rcx + 2*rax + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x4004             // movdqu    oword [r8 + 2*rax], xmm0
+	LONG $0x7f0f41f3; WORD $0x404c; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm1
+
+LBB0_432:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_524
+
+LBB0_433:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_435
+
+LBB0_434:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB0_434
+
+LBB0_435:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_524
+
+LBB0_436:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_436
+	JMP  LBB0_524
+
+LBB0_485:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_488:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_490
+	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10c1             // movdqu    xmm2, oword [rcx + 8*rax + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xc004             // movdqu    oword [r8 + 8*rax], xmm0
+	LONG $0x7f0f41f3; WORD $0xc04c; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm1
+
+LBB0_490:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_524
+
+LBB0_491:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_493
+
+LBB0_492:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc38348 // add    rbx, -1
+	JNE  LBB0_492
+
+LBB0_493:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_524
+
+LBB0_494:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_494
+	JMP  LBB0_524
+
+LBB0_501:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_504:
+	LONG $0x01c3f641               // test    r11b, 1
+	JE   LBB0_506
+	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
+	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x8114100f               // movups    xmm2, oword [rcx + 4*rax]
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0x8154100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rax + 16]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x04110f41; BYTE $0x80   // movups    oword [r8 + 4*rax], xmm0
+	LONG $0x4c110f41; WORD $0x1080 // movups    oword [r8 + 4*rax + 16], xmm1
+
+LBB0_506:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_524
+
+LBB0_507:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_509
+
+LBB0_508:
+	LONG $0x04100ff3; BYTE $0xb2   // movss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045c0ff3; BYTE $0xb1   // subss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB0_508
+
+LBB0_509:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_524
+
+LBB0_510:
+	LONG $0x04100ff3; BYTE $0xb2               // movss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045c0ff3; BYTE $0xb1               // subss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x44100ff3; WORD $0x04b2             // movss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x445c0ff3; WORD $0x04b1             // subss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x44100ff3; WORD $0x08b2             // movss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x445c0ff3; WORD $0x08b1             // subss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x44100ff3; WORD $0x0cb2             // movss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x445c0ff3; WORD $0x0cb1             // subss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_510
+	JMP  LBB0_524
+
+LBB0_382:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_385:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_387
+	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
+	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
+	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1001             // movdqu    xmm2, oword [rcx + rax + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x0004             // movdqu    oword [r8 + rax], xmm0
+	LONG $0x7f0f41f3; WORD $0x004c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm1
+
+LBB0_387:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_524
+
+LBB0_388:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_390
+
+LBB0_389:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB0_389
+
+LBB0_390:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_524
+
+LBB0_391:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_391
+	JMP  LBB0_524
+
+LBB0_456:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_459:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_461
+	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
+	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1081             // movdqu    xmm2, oword [rcx + 4*rax + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x8004             // movdqu    oword [r8 + 4*rax], xmm0
+	LONG $0x7f0f41f3; WORD $0x804c; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm1
+
+LBB0_461:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_524
+
+LBB0_462:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB0_464
+
+LBB0_463:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB0_463
+
+LBB0_464:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB0_524
+
+LBB0_465:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_465
+	JMP  LBB0_524
+
+LBB0_94:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_97:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_99
+	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
+	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1081             // movdqu    xmm0, oword [rcx + 4*rax + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x8014             // movdqu    oword [r8 + 4*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm0
+
+LBB0_99:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_178
+	JMP  LBB0_100
+
+LBB0_168:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_171:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_173
+	LONG $0x04100f66; BYTE $0xc2               // movupd    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c100f66; WORD $0x10c2             // movupd    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x14100f66; BYTE $0xc1               // movupd    xmm2, oword [rcx + 8*rax]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10c1             // movupd    xmm0, oword [rcx + 8*rax + 16]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xc014             // movupd    oword [r8 + 8*rax], xmm2
+	LONG $0x110f4166; WORD $0xc044; BYTE $0x10 // movupd    oword [r8 + 8*rax + 16], xmm0
+
+LBB0_173:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_178
+	JMP  LBB0_174
+
+LBB0_49:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_52:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_54
+	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
+	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
+	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm0
+
+LBB0_54:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_178
+	JMP  LBB0_55
+
+LBB0_123:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_126:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_128
+	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10c1             // movdqu    xmm0, oword [rcx + 8*rax + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xc014             // movdqu    oword [r8 + 8*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm0
+
+LBB0_128:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_178
+	JMP  LBB0_129
+
+LBB0_65:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_68:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_70
+	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
+	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1041             // movdqu    xmm0, oword [rcx + 2*rax + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x4014             // movdqu    oword [r8 + 2*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm0
+
+LBB0_70:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_178
+	JMP  LBB0_71
+
+LBB0_81:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_84:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_86
+	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
+	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1041             // movdqu    xmm0, oword [rcx + 2*rax + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x4014             // movdqu    oword [r8 + 2*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm0
+
+LBB0_86:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_178
+	JMP  LBB0_87
+
+LBB0_139:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_142:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_144
+	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
+	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
+	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10c1             // movdqu    xmm0, oword [rcx + 8*rax + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xc014             // movdqu    oword [r8 + 8*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm0
+
+LBB0_144:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_178
+	JMP  LBB0_145
+
+LBB0_155:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_158:
+	LONG $0x01c3f641               // test    r11b, 1
+	JE   LBB0_160
+	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
+	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x8114100f               // movups    xmm2, oword [rcx + 4*rax]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0x8144100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rax + 16]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0x80   // movups    oword [r8 + 4*rax], xmm2
+	LONG $0x44110f41; WORD $0x1080 // movups    oword [r8 + 4*rax + 16], xmm0
+
+LBB0_160:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_178
+	JMP  LBB0_161
+
+LBB0_36:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_39:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_41
+	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
+	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
+	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm0
+
+LBB0_41:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_178
+	JMP  LBB0_42
+
+LBB0_110:
+	WORD $0xc031 // xor    eax, eax
+
+LBB0_113:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB0_115
+	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
+	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
+	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1081             // movdqu    xmm0, oword [rcx + 4*rax + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x8014             // movdqu    oword [r8 + 4*rax], xmm2
+	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm0
+
+LBB0_115:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB0_178
+	JMP  LBB0_116
+
+TEXT ·_arithmetic_arr_scalar_sse4(SB), $0-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ op+8(FP), SI
+	MOVQ inLeft+16(FP), DX
+	MOVQ inRight+24(FP), CX
+	MOVQ out+32(FP), R8
+	MOVQ len+40(FP), R9
+
+	LONG $0x01fe8040         // cmp    sil, 1
+	JG   LBB1_11
+	WORD $0x8440; BYTE $0xf6 // test    sil, sil
+	JE   LBB1_28
+	LONG $0x01fe8040         // cmp    sil, 1
+	JNE  LBB1_517
+
+LBB1_3:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_36
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_60
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_98
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_101
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_474
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_10
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_254
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_254
+
+LBB1_10:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_398:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_400
+
+LBB1_399:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_399
+
+LBB1_400:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_474
+
+LBB1_401:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_401
+	JMP  LBB1_474
+
+LBB1_11:
+	LONG $0x02fe8040 // cmp    sil, 2
+	JE   LBB1_474
+	LONG $0x03fe8040 // cmp    sil, 3
+	JNE  LBB1_517
+
+LBB1_13:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_21
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_50
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_70
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_73
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_517
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_20
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_194
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_194
+
+LBB1_20:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_318:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_320
+
+LBB1_319:
+	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
+	WORD $0xc329             // sub    ebx, eax
+	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc18348         // add    rcx, -1
+	JNE  LBB1_319
+
+LBB1_320:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB1_517
+
+LBB1_321:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_321
+	JMP  LBB1_517
+
+LBB1_21:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_55
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_76
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_79
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_517
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_27
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_197
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_197
+
+LBB1_27:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_326:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_328
+
+LBB1_327:
+	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85c0ff2               // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_327
+
+LBB1_328:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_517
+
+LBB1_329:
+	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_329
+	JMP  LBB1_517
+
+LBB1_28:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_43
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_88
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_116
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_119
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_3
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_35
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_284
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_284
+
+LBB1_35:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_662:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_664
+
+LBB1_663:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_663
+
+LBB1_664:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_3
+
+LBB1_665:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_665
+	JMP  LBB1_3
+
+LBB1_36:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_65
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_104
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_107
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_474
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_42
+	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_257
+	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_257
+
+LBB1_42:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_406:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_408
+
+LBB1_407:
+	LONG $0x0c100ff2; BYTE $0xf2   // movsd    xmm1, qword [rdx + 8*rsi]
+	LONG $0xc8580ff2               // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB1_407
+
+LBB1_408:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB1_474
+
+LBB1_409:
+	LONG $0x0c100ff2; BYTE $0xf2               // movsd    xmm1, qword [rdx + 8*rsi]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf00c             // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x4c100ff2; WORD $0x08f2             // movsd    xmm1, qword [rdx + 8*rsi + 8]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10f2             // movsd    xmm1, qword [rdx + 8*rsi + 16]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18f2             // movsd    xmm1, qword [rdx + 8*rsi + 24]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB1_409
+	JMP  LBB1_474
+
+LBB1_43:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_93
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_122
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_125
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_3
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_49
+	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_287
+	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_287
+
+LBB1_49:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_670:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_672
+
+LBB1_671:
+	LONG $0x0c100ff2; BYTE $0xf2   // movsd    xmm1, qword [rdx + 8*rsi]
+	LONG $0xc8580ff2               // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB1_671
+
+LBB1_672:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB1_3
+
+LBB1_673:
+	LONG $0x0c100ff2; BYTE $0xf2               // movsd    xmm1, qword [rdx + 8*rsi]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf00c             // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x4c100ff2; WORD $0x08f2             // movsd    xmm1, qword [rdx + 8*rsi + 8]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10f2             // movsd    xmm1, qword [rdx + 8*rsi + 16]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18f2             // movsd    xmm1, qword [rdx + 8*rsi + 24]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB1_673
+	JMP  LBB1_3
+
+LBB1_50:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB1_82
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB1_517
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x018a             // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_54
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_200
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_200
+
+LBB1_54:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_334:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_336
+
+LBB1_335:
+	LONG $0x321cb60f // movzx    ebx, byte [rdx + rsi]
+	WORD $0xc328     // sub    bl, al
+	LONG $0x301c8841 // mov    byte [r8 + rsi], bl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc18348 // add    rcx, -1
+	JNE  LBB1_335
+
+LBB1_336:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB1_517
+
+LBB1_337:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_337
+	JMP  LBB1_517
+
+LBB1_55:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_85
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_517
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_59
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_203
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_203
+
+LBB1_59:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_342:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_344
+
+LBB1_343:
+	LONG $0xf21c8b48         // mov    rbx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc3 // sub    rbx, rax
+	LONG $0xf01c8949         // mov    qword [r8 + 8*rsi], rbx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc18348         // add    rcx, -1
+	JNE  LBB1_343
+
+LBB1_344:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB1_517
+
+LBB1_345:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_345
+	JMP  LBB1_517
+
+LBB1_60:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB1_110
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB1_474
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8a44; BYTE $0x31 // mov    r14b, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_64
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_260
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_260
+
+LBB1_64:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_414:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_416
+
+LBB1_415:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0044; BYTE $0xf0 // add    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_415
+
+LBB1_416:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_474
+
+LBB1_417:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_417
+	JMP  LBB1_474
+
+LBB1_65:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_113
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_474
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_69
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_263
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_263
+
+LBB1_69:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_422:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_424
+
+LBB1_423:
+	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_423
+
+LBB1_424:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_474
+
+LBB1_425:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_425
+	JMP  LBB1_474
+
+LBB1_70:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_72
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_206
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_206
+
+LBB1_72:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_350:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_352
+
+LBB1_351:
+	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
+	WORD $0xc329                 // sub    ebx, eax
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_351
+
+LBB1_352:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB1_517
+
+LBB1_353:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_353
+	JMP  LBB1_517
+
+LBB1_73:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_75
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_209
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_209
+
+LBB1_75:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_358:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_360
+
+LBB1_359:
+	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
+	WORD $0xc329                 // sub    ebx, eax
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_359
+
+LBB1_360:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB1_517
+
+LBB1_361:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_361
+	JMP  LBB1_517
+
+LBB1_76:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_78
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_212
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_212
+
+LBB1_78:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_366:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_368
+
+LBB1_367:
+	LONG $0xf21c8b48         // mov    rbx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc3 // sub    rbx, rax
+	LONG $0xf01c8949         // mov    qword [r8 + 8*rsi], rbx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc18348         // add    rcx, -1
+	JNE  LBB1_367
+
+LBB1_368:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB1_517
+
+LBB1_369:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_369
+	JMP  LBB1_517
+
+LBB1_79:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_81
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_215
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_215
+
+LBB1_81:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_374:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_376
+
+LBB1_375:
+	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85c0ff3               // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_375
+
+LBB1_376:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_517
+
+LBB1_377:
+	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_377
+	JMP  LBB1_517
+
+LBB1_82:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x018a             // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_84
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_218
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_218
+
+LBB1_84:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_382:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_384
+
+LBB1_383:
+	LONG $0x321cb60f // movzx    ebx, byte [rdx + rsi]
+	WORD $0xc328     // sub    bl, al
+	LONG $0x301c8841 // mov    byte [r8 + rsi], bl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc18348 // add    rcx, -1
+	JNE  LBB1_383
+
+LBB1_384:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB1_517
+
+LBB1_385:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_385
+	JMP  LBB1_517
+
+LBB1_85:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_87
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_221
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_221
+
+LBB1_87:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_390:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_392
+
+LBB1_391:
+	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
+	WORD $0xc329             // sub    ebx, eax
+	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc18348         // add    rcx, -1
+	JNE  LBB1_391
+
+LBB1_392:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB1_517
+
+LBB1_393:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_393
+	JMP  LBB1_517
+
+LBB1_88:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB1_128
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB1_3
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8a44; BYTE $0x31 // mov    r14b, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_92
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_290
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_290
+
+LBB1_92:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_678:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_680
+
+LBB1_679:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0044; BYTE $0xf0 // add    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_679
+
+LBB1_680:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_3
+
+LBB1_681:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_681
+	JMP  LBB1_3
+
+LBB1_93:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_131
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_3
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_97
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_293
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_293
+
+LBB1_97:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_686:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_688
+
+LBB1_687:
+	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_687
+
+LBB1_688:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_3
+
+LBB1_689:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_689
+	JMP  LBB1_3
+
+LBB1_98:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_100
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_266
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_266
+
+LBB1_100:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_430:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_432
+
+LBB1_431:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xf0014466             // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB1_431
+
+LBB1_432:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_474
+
+LBB1_433:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_433
+	JMP  LBB1_474
+
+LBB1_101:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_103
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_269
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_269
+
+LBB1_103:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_438:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_440
+
+LBB1_439:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xf0014466             // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB1_439
+
+LBB1_440:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_474
+
+LBB1_441:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_441
+	JMP  LBB1_474
+
+LBB1_104:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_106
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_272
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_272
+
+LBB1_106:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_446:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_448
+
+LBB1_447:
+	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_447
+
+LBB1_448:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_474
+
+LBB1_449:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_449
+	JMP  LBB1_474
+
+LBB1_107:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_109
+	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_275
+	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_275
+
+LBB1_109:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_454:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_456
+
+LBB1_455:
+	LONG $0x0c100ff3; BYTE $0xb2   // movss    xmm1, dword [rdx + 4*rsi]
+	LONG $0xc8580ff3               // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB1_455
+
+LBB1_456:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB1_474
+
+LBB1_457:
+	LONG $0x0c100ff3; BYTE $0xb2               // movss    xmm1, dword [rdx + 4*rsi]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb00c             // movss    dword [r8 + 4*rsi], xmm1
+	LONG $0x4c100ff3; WORD $0x04b2             // movss    xmm1, dword [rdx + 4*rsi + 4]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x08b2             // movss    xmm1, dword [rdx + 4*rsi + 8]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0cb2             // movss    xmm1, dword [rdx + 4*rsi + 12]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB1_457
+	JMP  LBB1_474
+
+LBB1_110:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8a44; BYTE $0x31 // mov    r14b, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_112
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_278
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_278
+
+LBB1_112:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_462:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_464
+
+LBB1_463:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0044; BYTE $0xf0 // add    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_463
+
+LBB1_464:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_474
+
+LBB1_465:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_465
+	JMP  LBB1_474
+
+LBB1_113:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_115
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_281
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_281
+
+LBB1_115:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_470:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_472
+
+LBB1_471:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_471
+
+LBB1_472:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_474
+
+LBB1_473:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_473
+	JMP  LBB1_474
+
+LBB1_116:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_118
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_296
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_296
+
+LBB1_118:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_694:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_696
+
+LBB1_695:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xf0014466             // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB1_695
+
+LBB1_696:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_3
+
+LBB1_697:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_697
+	JMP  LBB1_3
+
+LBB1_119:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_121
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_299
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_299
+
+LBB1_121:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_702:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_704
+
+LBB1_703:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xf0014466             // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB1_703
+
+LBB1_704:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_3
+
+LBB1_705:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_705
+	JMP  LBB1_3
+
+LBB1_122:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_124
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_302
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_302
+
+LBB1_124:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_710:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_712
+
+LBB1_711:
+	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_711
+
+LBB1_712:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_3
+
+LBB1_713:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_713
+	JMP  LBB1_3
+
+LBB1_125:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_127
+	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_305
+	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_305
+
+LBB1_127:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_718:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_720
+
+LBB1_719:
+	LONG $0x0c100ff3; BYTE $0xb2   // movss    xmm1, dword [rdx + 4*rsi]
+	LONG $0xc8580ff3               // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB1_719
+
+LBB1_720:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB1_3
+
+LBB1_721:
+	LONG $0x0c100ff3; BYTE $0xb2               // movss    xmm1, dword [rdx + 4*rsi]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb00c             // movss    dword [r8 + 4*rsi], xmm1
+	LONG $0x4c100ff3; WORD $0x04b2             // movss    xmm1, dword [rdx + 4*rsi + 4]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x08b2             // movss    xmm1, dword [rdx + 4*rsi + 8]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0cb2             // movss    xmm1, dword [rdx + 4*rsi + 12]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB1_721
+	JMP  LBB1_3
+
+LBB1_128:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8a44; BYTE $0x31 // mov    r14b, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_130
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_308
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_308
+
+LBB1_130:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_726:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_728
+
+LBB1_727:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x0044; BYTE $0xf0 // add    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_727
+
+LBB1_728:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_3
+
+LBB1_729:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_729
+	JMP  LBB1_3
+
+LBB1_131:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_133
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_311
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_311
+
+LBB1_133:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_734:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_736
+
+LBB1_735:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_735
+
+LBB1_736:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_3
+
+LBB1_737:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_737
+	JMP  LBB1_3
+
+LBB1_194:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_314
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_196:
+	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x209a             // movdqu    xmm1, oword [rdx + 4*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x309a             // movdqu    xmm2, oword [rdx + 4*rbx + 48]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
+	LONG $0x10c38348                           // add    rbx, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_196
+	JMP  LBB1_315
+
+LBB1_197:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xfc // and    ecx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
+	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
+	LONG $0x02ebc148         // shr    rbx, 2
+	LONG $0x01c38348         // add    rbx, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_322
+	WORD $0x8948; BYTE $0xde // mov    rsi, rbx
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_199:
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_199
+	JMP  LBB1_323
+
+LBB1_200:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
+	LONG $0xc16e0f66             // movd    xmm0, ecx
+	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_330
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_202:
+	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
+	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x201a             // movdqu    xmm1, oword [rdx + rbx + 32]
+	LONG $0x546f0ff3; WORD $0x301a             // movdqu    xmm2, oword [rdx + rbx + 48]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_202
+	JMP  LBB1_331
+
+LBB1_203:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_338
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_205:
+	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20da             // movdqu    xmm1, oword [rdx + 8*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x30da             // movdqu    xmm2, oword [rdx + 8*rbx + 48]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_205
+	JMP  LBB1_339
+
+LBB1_206:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_346
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_208:
+	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x205a             // movdqu    xmm1, oword [rdx + 2*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x305a             // movdqu    xmm2, oword [rdx + 2*rbx + 48]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_208
+	JMP  LBB1_347
+
+LBB1_209:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_354
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_211:
+	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x205a             // movdqu    xmm1, oword [rdx + 2*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x305a             // movdqu    xmm2, oword [rdx + 2*rbx + 48]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_211
+	JMP  LBB1_355
+
+LBB1_212:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_362
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_214:
+	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20da             // movdqu    xmm1, oword [rdx + 8*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x30da             // movdqu    xmm2, oword [rdx + 8*rbx + 48]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_214
+	JMP  LBB1_363
+
+LBB1_215:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
+	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
+	LONG $0x03ebc148         // shr    rbx, 3
+	LONG $0x01c38348         // add    rbx, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_370
+	WORD $0x8948; BYTE $0xde // mov    rsi, rbx
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_217:
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
+	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB1_217
+	JMP  LBB1_371
+
+LBB1_218:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
+	LONG $0xc16e0f66             // movd    xmm0, ecx
+	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_378
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_220:
+	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
+	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x201a             // movdqu    xmm1, oword [rdx + rbx + 32]
+	LONG $0x546f0ff3; WORD $0x301a             // movdqu    xmm2, oword [rdx + rbx + 48]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_220
+	JMP  LBB1_379
+
+LBB1_221:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_386
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_223:
+	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x209a             // movdqu    xmm1, oword [rdx + 4*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x309a             // movdqu    xmm2, oword [rdx + 4*rbx + 48]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
+	LONG $0x10c38348                           // add    rbx, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_223
+	JMP  LBB1_387
+
+LBB1_254:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8468d48             // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x03ebc149             // shr    r11, 3
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_394
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_256:
+	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x209a             // movdqu    xmm1, oword [rdx + 4*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x309a             // movdqu    xmm2, oword [rdx + 4*rbx + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
+	LONG $0x10c38348                           // add    rbx, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_256
+	JMP  LBB1_395
+
+LBB1_257:
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
+	LONG $0x02eac149         // shr    r10, 2
+	LONG $0x01c28349         // add    r10, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB1_402
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xdb31             // xor    ebx, ebx
+
+LBB1_259:
+	LONG $0x14100f66; BYTE $0xda               // movupd    xmm2, oword [rdx + 8*rbx]
+	LONG $0x5c100f66; WORD $0x10da             // movupd    xmm3, oword [rdx + 8*rbx + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
+	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
+	LONG $0x54100f66; WORD $0x20da             // movupd    xmm2, oword [rdx + 8*rbx + 32]
+	LONG $0x5c100f66; WORD $0x30da             // movupd    xmm3, oword [rdx + 8*rbx + 48]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xd854; BYTE $0x20 // movupd    oword [r8 + 8*rbx + 32], xmm2
+	LONG $0x110f4166; WORD $0xd85c; BYTE $0x30 // movupd    oword [r8 + 8*rbx + 48], xmm3
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_259
+	JMP  LBB1_403
+
+LBB1_260:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc6b60f41             // movzx    eax, r14b
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_410
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_262:
+	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
+	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x201a             // movdqu    xmm1, oword [rdx + rbx + 32]
+	LONG $0x546f0ff3; WORD $0x301a             // movdqu    xmm2, oword [rdx + rbx + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_262
+	JMP  LBB1_411
+
+LBB1_263:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x02ebc149             // shr    r11, 2
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_418
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_265:
+	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20da             // movdqu    xmm1, oword [rdx + 8*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x30da             // movdqu    xmm2, oword [rdx + 8*rbx + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_265
+	JMP  LBB1_419
+
+LBB1_266:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_426
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_268:
+	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x205a             // movdqu    xmm1, oword [rdx + 2*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x305a             // movdqu    xmm2, oword [rdx + 2*rbx + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_268
+	JMP  LBB1_427
+
+LBB1_269:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_434
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_271:
+	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x205a             // movdqu    xmm1, oword [rdx + 2*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x305a             // movdqu    xmm2, oword [rdx + 2*rbx + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_271
+	JMP  LBB1_435
+
+LBB1_272:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x02ebc149             // shr    r11, 2
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_442
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_274:
+	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20da             // movdqu    xmm1, oword [rdx + 8*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x30da             // movdqu    xmm2, oword [rdx + 8*rbx + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_274
+	JMP  LBB1_443
+
+LBB1_275:
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
+	LONG $0x03eac149         // shr    r10, 3
+	LONG $0x01c28349         // add    r10, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB1_450
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xdb31             // xor    ebx, ebx
+
+LBB1_277:
+	LONG $0x9a14100f               // movups    xmm2, oword [rdx + 4*rbx]
+	LONG $0x9a5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rbx + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
+	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
+	LONG $0x9a54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rbx + 32]
+	LONG $0x9a5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rbx + 48]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x2098 // movups    oword [r8 + 4*rbx + 32], xmm2
+	LONG $0x5c110f41; WORD $0x3098 // movups    oword [r8 + 4*rbx + 48], xmm3
+	LONG $0x10c38348               // add    rbx, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB1_277
+	JMP  LBB1_451
+
+LBB1_278:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc6b60f41             // movzx    eax, r14b
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_458
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_280:
+	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
+	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x201a             // movdqu    xmm1, oword [rdx + rbx + 32]
+	LONG $0x546f0ff3; WORD $0x301a             // movdqu    xmm2, oword [rdx + rbx + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_280
+	JMP  LBB1_459
+
+LBB1_281:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8468d48             // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x03ebc149             // shr    r11, 3
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_466
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_283:
+	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x209a             // movdqu    xmm1, oword [rdx + 4*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x309a             // movdqu    xmm2, oword [rdx + 4*rbx + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
+	LONG $0x10c38348                           // add    rbx, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_283
+	JMP  LBB1_467
+
+LBB1_284:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8468d48             // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x03ebc149             // shr    r11, 3
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_658
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_286:
+	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x209a             // movdqu    xmm1, oword [rdx + 4*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x309a             // movdqu    xmm2, oword [rdx + 4*rbx + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
+	LONG $0x10c38348                           // add    rbx, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_286
+	JMP  LBB1_659
+
+LBB1_287:
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
+	LONG $0x02eac149         // shr    r10, 2
+	LONG $0x01c28349         // add    r10, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB1_666
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xdb31             // xor    ebx, ebx
+
+LBB1_289:
+	LONG $0x14100f66; BYTE $0xda               // movupd    xmm2, oword [rdx + 8*rbx]
+	LONG $0x5c100f66; WORD $0x10da             // movupd    xmm3, oword [rdx + 8*rbx + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
+	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
+	LONG $0x54100f66; WORD $0x20da             // movupd    xmm2, oword [rdx + 8*rbx + 32]
+	LONG $0x5c100f66; WORD $0x30da             // movupd    xmm3, oword [rdx + 8*rbx + 48]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xd854; BYTE $0x20 // movupd    oword [r8 + 8*rbx + 32], xmm2
+	LONG $0x110f4166; WORD $0xd85c; BYTE $0x30 // movupd    oword [r8 + 8*rbx + 48], xmm3
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_289
+	JMP  LBB1_667
+
+LBB1_290:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc6b60f41             // movzx    eax, r14b
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_674
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_292:
+	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
+	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x201a             // movdqu    xmm1, oword [rdx + rbx + 32]
+	LONG $0x546f0ff3; WORD $0x301a             // movdqu    xmm2, oword [rdx + rbx + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_292
+	JMP  LBB1_675
+
+LBB1_293:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x02ebc149             // shr    r11, 2
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_682
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_295:
+	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20da             // movdqu    xmm1, oword [rdx + 8*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x30da             // movdqu    xmm2, oword [rdx + 8*rbx + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_295
+	JMP  LBB1_683
+
+LBB1_296:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_690
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_298:
+	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x205a             // movdqu    xmm1, oword [rdx + 2*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x305a             // movdqu    xmm2, oword [rdx + 2*rbx + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_298
+	JMP  LBB1_691
+
+LBB1_299:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_698
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_301:
+	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x205a             // movdqu    xmm1, oword [rdx + 2*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x305a             // movdqu    xmm2, oword [rdx + 2*rbx + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_301
+	JMP  LBB1_699
+
+LBB1_302:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x02ebc149             // shr    r11, 2
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_706
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_304:
+	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20da             // movdqu    xmm1, oword [rdx + 8*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x30da             // movdqu    xmm2, oword [rdx + 8*rbx + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_304
+	JMP  LBB1_707
+
+LBB1_305:
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
+	LONG $0x03eac149         // shr    r10, 3
+	LONG $0x01c28349         // add    r10, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB1_714
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xdb31             // xor    ebx, ebx
+
+LBB1_307:
+	LONG $0x9a14100f               // movups    xmm2, oword [rdx + 4*rbx]
+	LONG $0x9a5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rbx + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
+	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
+	LONG $0x9a54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rbx + 32]
+	LONG $0x9a5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rbx + 48]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x2098 // movups    oword [r8 + 4*rbx + 32], xmm2
+	LONG $0x5c110f41; WORD $0x3098 // movups    oword [r8 + 4*rbx + 48], xmm3
+	LONG $0x10c38348               // add    rbx, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB1_307
+	JMP  LBB1_715
+
+LBB1_308:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc6b60f41             // movzx    eax, r14b
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_722
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_310:
+	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
+	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x201a             // movdqu    xmm1, oword [rdx + rbx + 32]
+	LONG $0x546f0ff3; WORD $0x301a             // movdqu    xmm2, oword [rdx + rbx + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_310
+	JMP  LBB1_723
+
+LBB1_311:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8468d48             // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x03ebc149             // shr    r11, 3
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_730
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_313:
+	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x209a             // movdqu    xmm1, oword [rdx + 4*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x309a             // movdqu    xmm2, oword [rdx + 4*rbx + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
+	LONG $0x10c38348                           // add    rbx, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_313
+	JMP  LBB1_731
+
+LBB1_314:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_315:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_317
+	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+
+LBB1_317:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_517
+	JMP  LBB1_318
+
+LBB1_322:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_323:
+	WORD $0xc3f6; BYTE $0x01                   // test    bl, 1
+	JE   LBB1_325
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+
+LBB1_325:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_517
+	JMP  LBB1_326
+
+LBB1_330:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_331:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_333
+	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
+	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+
+LBB1_333:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_517
+	JMP  LBB1_334
+
+LBB1_338:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_339:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_341
+	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+
+LBB1_341:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_517
+	JMP  LBB1_342
+
+LBB1_346:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_347:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_349
+	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+
+LBB1_349:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_517
+	JMP  LBB1_350
+
+LBB1_354:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_355:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_357
+	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+
+LBB1_357:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_517
+	JMP  LBB1_358
+
+LBB1_362:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_363:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_365
+	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+
+LBB1_365:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_517
+	JMP  LBB1_366
+
+LBB1_370:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_371:
+	WORD $0xc3f6; BYTE $0x01       // test    bl, 1
+	JE   LBB1_373
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+
+LBB1_373:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_517
+	JMP  LBB1_374
+
+LBB1_378:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_379:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_381
+	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
+	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+
+LBB1_381:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_517
+	JMP  LBB1_382
+
+LBB1_386:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_387:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_389
+	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+
+LBB1_389:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_517
+	JMP  LBB1_390
+
+LBB1_394:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_395:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_397
+	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+
+LBB1_397:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_474
+	JMP  LBB1_398
+
+LBB1_402:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_403:
+	LONG $0x01c2f641                           // test    r10b, 1
+	JE   LBB1_405
+	LONG $0x14100f66; BYTE $0xda               // movupd    xmm2, oword [rdx + 8*rbx]
+	LONG $0x5c100f66; WORD $0x10da             // movupd    xmm3, oword [rdx + 8*rbx + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
+	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
+
+LBB1_405:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB1_474
+	JMP  LBB1_406
+
+LBB1_410:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_411:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_413
+	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
+	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+
+LBB1_413:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_474
+	JMP  LBB1_414
+
+LBB1_418:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_419:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_421
+	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+
+LBB1_421:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_474
+	JMP  LBB1_422
+
+LBB1_426:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_427:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_429
+	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+
+LBB1_429:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_474
+	JMP  LBB1_430
+
+LBB1_434:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_435:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_437
+	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+
+LBB1_437:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_474
+	JMP  LBB1_438
+
+LBB1_442:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_443:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_445
+	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+
+LBB1_445:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_474
+	JMP  LBB1_446
+
+LBB1_450:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_451:
+	LONG $0x01c2f641               // test    r10b, 1
+	JE   LBB1_453
+	LONG $0x9a14100f               // movups    xmm2, oword [rdx + 4*rbx]
+	LONG $0x9a5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rbx + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
+	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
+
+LBB1_453:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB1_474
+	JMP  LBB1_454
+
+LBB1_458:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_459:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_461
+	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
+	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+
+LBB1_461:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_474
+	JMP  LBB1_462
+
+LBB1_466:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_467:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_469
+	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+
+LBB1_469:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB1_470
+
+LBB1_474:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_482
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_489
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_499
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_502
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_13
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_481
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_548
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_548
+
+LBB1_481:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_582:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_584
+
+LBB1_583:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x2944; BYTE $0xf0 // sub    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_583
+
+LBB1_584:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_13
+
+LBB1_585:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_585
+	JMP  LBB1_13
+
+LBB1_482:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_494
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_505
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_508
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_13
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_488
+	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_551
+	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_551
+
+LBB1_488:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_590:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_592
+
+LBB1_591:
+	LONG $0x0c100ff2; BYTE $0xf2   // movsd    xmm1, qword [rdx + 8*rsi]
+	LONG $0xc85c0ff2               // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB1_591
+
+LBB1_592:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB1_13
+
+LBB1_593:
+	LONG $0x0c100ff2; BYTE $0xf2               // movsd    xmm1, qword [rdx + 8*rsi]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf00c             // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x4c100ff2; WORD $0x08f2             // movsd    xmm1, qword [rdx + 8*rsi + 8]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10f2             // movsd    xmm1, qword [rdx + 8*rsi + 16]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18f2             // movsd    xmm1, qword [rdx + 8*rsi + 24]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB1_593
+	JMP  LBB1_13
+
+LBB1_489:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB1_511
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB1_13
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8a44; BYTE $0x31 // mov    r14b, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_493
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_554
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_554
+
+LBB1_493:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_598:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_600
+
+LBB1_599:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x2844; BYTE $0xf0 // sub    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_599
+
+LBB1_600:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_13
+
+LBB1_601:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x2844; BYTE $0xf0     // sub    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	WORD $0x2844; BYTE $0xf0     // sub    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	WORD $0x2844; BYTE $0xf0     // sub    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0x2844; BYTE $0xf0     // sub    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_601
+	JMP  LBB1_13
+
+LBB1_494:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_514
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_13
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_498
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_557
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_557
+
+LBB1_498:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_606:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_608
+
+LBB1_607:
+	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x294c; BYTE $0xf0 // sub    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_607
+
+LBB1_608:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_13
+
+LBB1_609:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x294c; BYTE $0xf0     // sub    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x294c; BYTE $0xf0     // sub    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	WORD $0x294c; BYTE $0xf0     // sub    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	WORD $0x294c; BYTE $0xf0     // sub    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_609
+	JMP  LBB1_13
+
+LBB1_499:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_501
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_560
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_560
+
+LBB1_501:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_614:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_616
+
+LBB1_615:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB1_615
+
+LBB1_616:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_13
+
+LBB1_617:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_617
+	JMP  LBB1_13
+
+LBB1_502:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_504
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_563
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_563
+
+LBB1_504:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_622:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_624
+
+LBB1_623:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB1_623
+
+LBB1_624:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_13
+
+LBB1_625:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_625
+	JMP  LBB1_13
+
+LBB1_505:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_507
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_566
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_566
+
+LBB1_507:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_630:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_632
+
+LBB1_631:
+	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x294c; BYTE $0xf0 // sub    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_631
+
+LBB1_632:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_13
+
+LBB1_633:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	WORD $0x294c; BYTE $0xf0     // sub    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	WORD $0x294c; BYTE $0xf0     // sub    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	WORD $0x294c; BYTE $0xf0     // sub    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	WORD $0x294c; BYTE $0xf0     // sub    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_633
+	JMP  LBB1_13
+
+LBB1_508:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_510
+	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_569
+	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_569
+
+LBB1_510:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_638:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_640
+
+LBB1_639:
+	LONG $0x0c100ff3; BYTE $0xb2   // movss    xmm1, dword [rdx + 4*rsi]
+	LONG $0xc85c0ff3               // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB1_639
+
+LBB1_640:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB1_13
+
+LBB1_641:
+	LONG $0x0c100ff3; BYTE $0xb2               // movss    xmm1, dword [rdx + 4*rsi]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb00c             // movss    dword [r8 + 4*rsi], xmm1
+	LONG $0x4c100ff3; WORD $0x04b2             // movss    xmm1, dword [rdx + 4*rsi + 4]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x08b2             // movss    xmm1, dword [rdx + 4*rsi + 8]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0cb2             // movss    xmm1, dword [rdx + 4*rsi + 12]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB1_641
+	JMP  LBB1_13
+
+LBB1_511:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8a44; BYTE $0x31 // mov    r14b, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_513
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_572
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_572
+
+LBB1_513:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_646:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_648
+
+LBB1_647:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x2844; BYTE $0xf0 // sub    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_647
+
+LBB1_648:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_13
+
+LBB1_649:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x2844; BYTE $0xf0     // sub    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	WORD $0x2844; BYTE $0xf0     // sub    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	WORD $0x2844; BYTE $0xf0     // sub    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	WORD $0x2844; BYTE $0xf0     // sub    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_649
+	JMP  LBB1_13
+
+LBB1_514:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_517
+	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_516
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB1_575
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
+	JBE  LBB1_575
+
+LBB1_516:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_654:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB1_656
+
+LBB1_655:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x2944; BYTE $0xf0 // sub    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB1_655
+
+LBB1_656:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB1_13
+
+LBB1_657:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_657
+	JMP  LBB1_13
+
+LBB1_517:
+	RET
+
+LBB1_548:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8468d48             // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x03ebc149             // shr    r11, 3
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_578
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_550:
+	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x209a             // movdqu    xmm1, oword [rdx + 4*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x309a             // movdqu    xmm2, oword [rdx + 4*rbx + 48]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
+	LONG $0x10c38348                           // add    rbx, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_550
+	JMP  LBB1_579
+
+LBB1_551:
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
+	LONG $0x02eac149         // shr    r10, 2
+	LONG $0x01c28349         // add    r10, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB1_586
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xdb31             // xor    ebx, ebx
+
+LBB1_553:
+	LONG $0x14100f66; BYTE $0xda               // movupd    xmm2, oword [rdx + 8*rbx]
+	LONG $0x5c100f66; WORD $0x10da             // movupd    xmm3, oword [rdx + 8*rbx + 16]
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
+	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
+	LONG $0x54100f66; WORD $0x20da             // movupd    xmm2, oword [rdx + 8*rbx + 32]
+	LONG $0x5c100f66; WORD $0x30da             // movupd    xmm3, oword [rdx + 8*rbx + 48]
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xd854; BYTE $0x20 // movupd    oword [r8 + 8*rbx + 32], xmm2
+	LONG $0x110f4166; WORD $0xd85c; BYTE $0x30 // movupd    oword [r8 + 8*rbx + 48], xmm3
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_553
+	JMP  LBB1_587
+
+LBB1_554:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc6b60f41             // movzx    eax, r14b
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_594
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_556:
+	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
+	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x201a             // movdqu    xmm1, oword [rdx + rbx + 32]
+	LONG $0x546f0ff3; WORD $0x301a             // movdqu    xmm2, oword [rdx + rbx + 48]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_556
+	JMP  LBB1_595
+
+LBB1_557:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x02ebc149             // shr    r11, 2
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_602
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_559:
+	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20da             // movdqu    xmm1, oword [rdx + 8*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x30da             // movdqu    xmm2, oword [rdx + 8*rbx + 48]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_559
+	JMP  LBB1_603
+
+LBB1_560:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_610
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_562:
+	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x205a             // movdqu    xmm1, oword [rdx + 2*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x305a             // movdqu    xmm2, oword [rdx + 2*rbx + 48]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_562
+	JMP  LBB1_611
+
+LBB1_563:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_618
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_565:
+	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x205a             // movdqu    xmm1, oword [rdx + 2*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x305a             // movdqu    xmm2, oword [rdx + 2*rbx + 48]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_565
+	JMP  LBB1_619
+
+LBB1_566:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x02ebc149             // shr    r11, 2
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_626
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_568:
+	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20da             // movdqu    xmm1, oword [rdx + 8*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x30da             // movdqu    xmm2, oword [rdx + 8*rbx + 48]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_568
+	JMP  LBB1_627
+
+LBB1_569:
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
+	LONG $0x03eac149         // shr    r10, 3
+	LONG $0x01c28349         // add    r10, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB1_634
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xdb31             // xor    ebx, ebx
+
+LBB1_571:
+	LONG $0x9a14100f               // movups    xmm2, oword [rdx + 4*rbx]
+	LONG $0x9a5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rbx + 16]
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
+	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
+	LONG $0x9a54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rbx + 32]
+	LONG $0x9a5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rbx + 48]
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x2098 // movups    oword [r8 + 4*rbx + 32], xmm2
+	LONG $0x5c110f41; WORD $0x3098 // movups    oword [r8 + 4*rbx + 48], xmm3
+	LONG $0x10c38348               // add    rbx, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB1_571
+	JMP  LBB1_635
+
+LBB1_572:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc6b60f41             // movzx    eax, r14b
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_642
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_574:
+	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
+	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x201a             // movdqu    xmm1, oword [rdx + rbx + 32]
+	LONG $0x546f0ff3; WORD $0x301a             // movdqu    xmm2, oword [rdx + rbx + 48]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_574
+	JMP  LBB1_643
+
+LBB1_575:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8468d48             // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x03ebc149             // shr    r11, 3
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB1_650
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB1_577:
+	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x209a             // movdqu    xmm1, oword [rdx + 4*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x309a             // movdqu    xmm2, oword [rdx + 4*rbx + 48]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
+	LONG $0x10c38348                           // add    rbx, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB1_577
+	JMP  LBB1_651
+
+LBB1_578:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_579:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_581
+	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+
+LBB1_581:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_582
+
+LBB1_586:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_587:
+	LONG $0x01c2f641                           // test    r10b, 1
+	JE   LBB1_589
+	LONG $0x14100f66; BYTE $0xda               // movupd    xmm2, oword [rdx + 8*rbx]
+	LONG $0x5c100f66; WORD $0x10da             // movupd    xmm3, oword [rdx + 8*rbx + 16]
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
+	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
+
+LBB1_589:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB1_13
+	JMP  LBB1_590
+
+LBB1_594:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_595:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_597
+	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
+	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+
+LBB1_597:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_598
+
+LBB1_602:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_603:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_605
+	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+
+LBB1_605:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_606
+
+LBB1_610:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_611:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_613
+	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+
+LBB1_613:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_614
+
+LBB1_618:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_619:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_621
+	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+
+LBB1_621:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_622
+
+LBB1_626:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_627:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_629
+	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+
+LBB1_629:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_630
+
+LBB1_634:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_635:
+	LONG $0x01c2f641               // test    r10b, 1
+	JE   LBB1_637
+	LONG $0x9a14100f               // movups    xmm2, oword [rdx + 4*rbx]
+	LONG $0x9a5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rbx + 16]
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
+	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
+
+LBB1_637:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB1_13
+	JMP  LBB1_638
+
+LBB1_642:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_643:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_645
+	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
+	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+
+LBB1_645:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_646
+
+LBB1_650:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_651:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_653
+	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+
+LBB1_653:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_13
+	JMP  LBB1_654
+
+LBB1_658:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_659:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_661
+	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+
+LBB1_661:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_3
+	JMP  LBB1_662
+
+LBB1_666:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_667:
+	LONG $0x01c2f641                           // test    r10b, 1
+	JE   LBB1_669
+	LONG $0x14100f66; BYTE $0xda               // movupd    xmm2, oword [rdx + 8*rbx]
+	LONG $0x5c100f66; WORD $0x10da             // movupd    xmm3, oword [rdx + 8*rbx + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
+	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
+
+LBB1_669:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB1_3
+	JMP  LBB1_670
+
+LBB1_674:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_675:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_677
+	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
+	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+
+LBB1_677:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_3
+	JMP  LBB1_678
+
+LBB1_682:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_683:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_685
+	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+
+LBB1_685:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_3
+	JMP  LBB1_686
+
+LBB1_690:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_691:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_693
+	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+
+LBB1_693:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_3
+	JMP  LBB1_694
+
+LBB1_698:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_699:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_701
+	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+
+LBB1_701:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_3
+	JMP  LBB1_702
+
+LBB1_706:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_707:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_709
+	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+
+LBB1_709:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_3
+	JMP  LBB1_710
+
+LBB1_714:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_715:
+	LONG $0x01c2f641               // test    r10b, 1
+	JE   LBB1_717
+	LONG $0x9a14100f               // movups    xmm2, oword [rdx + 4*rbx]
+	LONG $0x9a5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rbx + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
+	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
+
+LBB1_717:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB1_3
+	JMP  LBB1_718
+
+LBB1_722:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_723:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_725
+	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
+	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+
+LBB1_725:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_3
+	JMP  LBB1_726
+
+LBB1_730:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB1_731:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB1_733
+	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+
+LBB1_733:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_3
+	JMP  LBB1_734
+
+TEXT ·_arithmetic_scalar_arr_sse4(SB), $0-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ op+8(FP), SI
+	MOVQ inLeft+16(FP), DX
+	MOVQ inRight+24(FP), CX
+	MOVQ out+32(FP), R8
+	MOVQ len+40(FP), R9
+
+	LONG $0x01fe8040         // cmp    sil, 1
+	JG   LBB2_11
+	WORD $0x8440; BYTE $0xf6 // test    sil, sil
+	JE   LBB2_28
+	LONG $0x01fe8040         // cmp    sil, 1
+	JNE  LBB2_517
+
+LBB2_3:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_36
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_60
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_98
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_101
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_474
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_10
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_254
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_254
+
+LBB2_10:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_398:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_400
+
+LBB2_399:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_399
+
+LBB2_400:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_474
+
+LBB2_401:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_401
+	JMP  LBB2_474
+
+LBB2_11:
+	LONG $0x02fe8040 // cmp    sil, 2
+	JE   LBB2_474
+	LONG $0x03fe8040 // cmp    sil, 3
+	JNE  LBB2_517
+
+LBB2_13:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_21
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_50
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_70
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_73
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_517
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_20
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_194
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_194
+
+LBB2_20:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_318:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_320
+
+LBB2_319:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc28348         // add    rdx, -1
+	JNE  LBB2_319
+
+LBB2_320:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB2_517
+
+LBB2_321:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_321
+	JMP  LBB2_517
+
+LBB2_21:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_55
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_76
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_79
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_517
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_27
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_197
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_197
+
+LBB2_27:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_326:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_328
+
+LBB2_327:
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	LONG $0x0c5c0ff2; BYTE $0xd1   // subsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_327
+
+LBB2_328:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_517
+
+LBB2_329:
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x0c5c0ff2; BYTE $0xd1               // subsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x08d1             // subsd    xmm1, qword [rcx + 8*rdx + 8]
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x10d1             // subsd    xmm1, qword [rcx + 8*rdx + 16]
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x18d1             // subsd    xmm1, qword [rcx + 8*rdx + 24]
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_329
+	JMP  LBB2_517
+
+LBB2_28:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_43
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_88
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_116
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_119
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_3
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_35
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_284
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_284
+
+LBB2_35:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_662:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_664
+
+LBB2_663:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_663
+
+LBB2_664:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_3
+
+LBB2_665:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_665
+	JMP  LBB2_3
+
+LBB2_36:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_65
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_104
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_107
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_474
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_42
+	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_257
+	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_257
+
+LBB2_42:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_406:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_408
+
+LBB2_407:
+	LONG $0x0c100ff2; BYTE $0xf1   // movsd    xmm1, qword [rcx + 8*rsi]
+	LONG $0xc8580ff2               // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB2_407
+
+LBB2_408:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB2_474
+
+LBB2_409:
+	LONG $0x0c100ff2; BYTE $0xf1               // movsd    xmm1, qword [rcx + 8*rsi]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf00c             // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x4c100ff2; WORD $0x08f1             // movsd    xmm1, qword [rcx + 8*rsi + 8]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10f1             // movsd    xmm1, qword [rcx + 8*rsi + 16]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18f1             // movsd    xmm1, qword [rcx + 8*rsi + 24]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB2_409
+	JMP  LBB2_474
+
+LBB2_43:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_93
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_122
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_125
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_3
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_49
+	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_287
+	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_287
+
+LBB2_49:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_670:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_672
+
+LBB2_671:
+	LONG $0x0c100ff2; BYTE $0xf1   // movsd    xmm1, qword [rcx + 8*rsi]
+	LONG $0xc8580ff2               // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB2_671
+
+LBB2_672:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB2_3
+
+LBB2_673:
+	LONG $0x0c100ff2; BYTE $0xf1               // movsd    xmm1, qword [rcx + 8*rsi]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf00c             // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x4c100ff2; WORD $0x08f1             // movsd    xmm1, qword [rcx + 8*rsi + 8]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10f1             // movsd    xmm1, qword [rcx + 8*rsi + 16]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18f1             // movsd    xmm1, qword [rcx + 8*rsi + 24]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB2_673
+	JMP  LBB2_3
+
+LBB2_50:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_82
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB2_517
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_54
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_200
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_200
+
+LBB2_54:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_334:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_336
+
+LBB2_335:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc28348         // add    rdx, -1
+	JNE  LBB2_335
+
+LBB2_336:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB2_517
+
+LBB2_337:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_337
+	JMP  LBB2_517
+
+LBB2_55:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_85
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_517
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_59
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_203
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_203
+
+LBB2_59:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_342:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_344
+
+LBB2_343:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc28348         // add    rdx, -1
+	JNE  LBB2_343
+
+LBB2_344:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB2_517
+
+LBB2_345:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_345
+	JMP  LBB2_517
+
+LBB2_60:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_110
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB2_474
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_64
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_260
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_260
+
+LBB2_64:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_414:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_416
+
+LBB2_415:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0044; BYTE $0xf0 // add    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_415
+
+LBB2_416:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_474
+
+LBB2_417:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_417
+	JMP  LBB2_474
+
+LBB2_65:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_113
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_474
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_69
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_263
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_263
+
+LBB2_69:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_422:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_424
+
+LBB2_423:
+	LONG $0xf1048b48         // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_423
+
+LBB2_424:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_474
+
+LBB2_425:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_425
+	JMP  LBB2_474
+
+LBB2_70:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_72
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_206
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_206
+
+LBB2_72:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_350:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_352
+
+LBB2_351:
+	WORD $0xc389                 // mov    ebx, eax
+	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_351
+
+LBB2_352:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB2_517
+
+LBB2_353:
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_353
+	JMP  LBB2_517
+
+LBB2_73:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_75
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_209
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_209
+
+LBB2_75:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_358:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_360
+
+LBB2_359:
+	WORD $0xc389                 // mov    ebx, eax
+	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
+	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_359
+
+LBB2_360:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB2_517
+
+LBB2_361:
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_361
+	JMP  LBB2_517
+
+LBB2_76:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_78
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_212
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_212
+
+LBB2_78:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_366:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_368
+
+LBB2_367:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc28348         // add    rdx, -1
+	JNE  LBB2_367
+
+LBB2_368:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB2_517
+
+LBB2_369:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_369
+	JMP  LBB2_517
+
+LBB2_79:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_81
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_215
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_215
+
+LBB2_81:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_374:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_376
+
+LBB2_375:
+	WORD $0x280f; BYTE $0xc8       // movaps    xmm1, xmm0
+	LONG $0x0c5c0ff3; BYTE $0x91   // subss    xmm1, dword [rcx + 4*rdx]
+	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_375
+
+LBB2_376:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_517
+
+LBB2_377:
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x0c5c0ff3; BYTE $0x91               // subss    xmm1, dword [rcx + 4*rdx]
+	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x0491             // subss    xmm1, dword [rcx + 4*rdx + 4]
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x0891             // subss    xmm1, dword [rcx + 4*rdx + 8]
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x0c91             // subss    xmm1, dword [rcx + 4*rdx + 12]
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_377
+	JMP  LBB2_517
+
+LBB2_82:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_84
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_218
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_218
+
+LBB2_84:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_382:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_384
+
+LBB2_383:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc28348         // add    rdx, -1
+	JNE  LBB2_383
+
+LBB2_384:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB2_517
+
+LBB2_385:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_385
+	JMP  LBB2_517
+
+LBB2_85:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_87
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_221
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_221
+
+LBB2_87:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_390:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_392
+
+LBB2_391:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc28348         // add    rdx, -1
+	JNE  LBB2_391
+
+LBB2_392:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB2_517
+
+LBB2_393:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_393
+	JMP  LBB2_517
+
+LBB2_88:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_128
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB2_3
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_92
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_290
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_290
+
+LBB2_92:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_678:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_680
+
+LBB2_679:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0044; BYTE $0xf0 // add    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_679
+
+LBB2_680:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_3
+
+LBB2_681:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_681
+	JMP  LBB2_3
+
+LBB2_93:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_131
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_3
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_97
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_293
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_293
+
+LBB2_97:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_686:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_688
+
+LBB2_687:
+	LONG $0xf1048b48         // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_687
+
+LBB2_688:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_3
+
+LBB2_689:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_689
+	JMP  LBB2_3
+
+LBB2_98:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x32b70f44         // movzx    r14d, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_100
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_266
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_266
+
+LBB2_100:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_430:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_432
+
+LBB2_431:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0xf0014466             // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB2_431
+
+LBB2_432:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_474
+
+LBB2_433:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_433
+	JMP  LBB2_474
+
+LBB2_101:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x32b70f44         // movzx    r14d, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_103
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_269
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_269
+
+LBB2_103:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_438:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_440
+
+LBB2_439:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0xf0014466             // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB2_439
+
+LBB2_440:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_474
+
+LBB2_441:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_441
+	JMP  LBB2_474
+
+LBB2_104:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_106
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_272
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_272
+
+LBB2_106:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_446:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_448
+
+LBB2_447:
+	LONG $0xf1048b48         // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_447
+
+LBB2_448:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_474
+
+LBB2_449:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_449
+	JMP  LBB2_474
+
+LBB2_107:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_109
+	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_275
+	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_275
+
+LBB2_109:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_454:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_456
+
+LBB2_455:
+	LONG $0x0c100ff3; BYTE $0xb1   // movss    xmm1, dword [rcx + 4*rsi]
+	LONG $0xc8580ff3               // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB2_455
+
+LBB2_456:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB2_474
+
+LBB2_457:
+	LONG $0x0c100ff3; BYTE $0xb1               // movss    xmm1, dword [rcx + 4*rsi]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb00c             // movss    dword [r8 + 4*rsi], xmm1
+	LONG $0x4c100ff3; WORD $0x04b1             // movss    xmm1, dword [rcx + 4*rsi + 4]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x08b1             // movss    xmm1, dword [rcx + 4*rsi + 8]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0cb1             // movss    xmm1, dword [rcx + 4*rsi + 12]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB2_457
+	JMP  LBB2_474
+
+LBB2_110:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_112
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_278
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_278
+
+LBB2_112:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_462:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_464
+
+LBB2_463:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0044; BYTE $0xf0 // add    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_463
+
+LBB2_464:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_474
+
+LBB2_465:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_465
+	JMP  LBB2_474
+
+LBB2_113:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_115
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_281
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_281
+
+LBB2_115:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_470:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_472
+
+LBB2_471:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_471
+
+LBB2_472:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_474
+
+LBB2_473:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_473
+	JMP  LBB2_474
+
+LBB2_116:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x32b70f44         // movzx    r14d, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_118
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_296
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_296
+
+LBB2_118:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_694:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_696
+
+LBB2_695:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0xf0014466             // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB2_695
+
+LBB2_696:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_3
+
+LBB2_697:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_697
+	JMP  LBB2_3
+
+LBB2_119:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x32b70f44         // movzx    r14d, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_121
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_299
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_299
+
+LBB2_121:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_702:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_704
+
+LBB2_703:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0xf0014466             // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB2_703
+
+LBB2_704:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_3
+
+LBB2_705:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0xf0014466               // add    ax, r14w
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_705
+	JMP  LBB2_3
+
+LBB2_122:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_124
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_302
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_302
+
+LBB2_124:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_710:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_712
+
+LBB2_711:
+	LONG $0xf1048b48         // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_711
+
+LBB2_712:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_3
+
+LBB2_713:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_713
+	JMP  LBB2_3
+
+LBB2_125:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_127
+	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_305
+	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_305
+
+LBB2_127:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_718:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_720
+
+LBB2_719:
+	LONG $0x0c100ff3; BYTE $0xb1   // movss    xmm1, dword [rcx + 4*rsi]
+	LONG $0xc8580ff3               // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB2_719
+
+LBB2_720:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB2_3
+
+LBB2_721:
+	LONG $0x0c100ff3; BYTE $0xb1               // movss    xmm1, dword [rcx + 4*rsi]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb00c             // movss    dword [r8 + 4*rsi], xmm1
+	LONG $0x4c100ff3; WORD $0x04b1             // movss    xmm1, dword [rcx + 4*rsi + 4]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x08b1             // movss    xmm1, dword [rcx + 4*rsi + 8]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0cb1             // movss    xmm1, dword [rcx + 4*rsi + 12]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB2_721
+	JMP  LBB2_3
+
+LBB2_128:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_130
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_308
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_308
+
+LBB2_130:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_726:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_728
+
+LBB2_727:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0044; BYTE $0xf0 // add    al, r14b
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_727
+
+LBB2_728:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_3
+
+LBB2_729:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	WORD $0x0044; BYTE $0xf0     // add    al, r14b
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_729
+	JMP  LBB2_3
+
+LBB2_131:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_133
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_311
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_311
+
+LBB2_133:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_734:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_736
+
+LBB2_735:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_735
+
+LBB2_736:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_3
+
+LBB2_737:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_737
+	JMP  LBB2_3
+
+LBB2_194:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_314
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_196:
+	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x981c             // movdqu    oword [r8 + 4*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2099             // movdqu    xmm1, oword [rcx + 4*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3099             // movdqu    xmm2, oword [rcx + 4*rbx + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x985c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm1
+	LONG $0x10c38348                           // add    rbx, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB2_196
+	JMP  LBB2_315
+
+LBB2_197:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
+	LONG $0x02ebc148         // shr    rbx, 2
+	LONG $0x01c38348         // add    rbx, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_322
+	WORD $0x8948; BYTE $0xde // mov    rsi, rbx
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_199:
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xd1280f66                           // movapd    xmm2, xmm1
+	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
+	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xd1280f66                           // movapd    xmm2, xmm1
+	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
+	LONG $0x110f4166; WORD $0xf864; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm4
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_199
+	JMP  LBB2_323
+
+LBB2_200:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xd3b60f41             // movzx    edx, r11b
+	LONG $0xc26e0f66             // movd    xmm0, edx
+	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_330
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_202:
+	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
+	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x181c             // movdqu    oword [r8 + rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2019             // movdqu    xmm1, oword [rcx + rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3019             // movdqu    xmm2, oword [rcx + rbx + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x185c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm1
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB2_202
+	JMP  LBB2_331
+
+LBB2_203:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_338
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_205:
+	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xd81c             // movdqu    oword [r8 + 8*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20d9             // movdqu    xmm1, oword [rcx + 8*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x30d9             // movdqu    xmm2, oword [rcx + 8*rbx + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xd85c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm1
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB2_205
+	JMP  LBB2_339
+
+LBB2_206:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_346
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_208:
+	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x581c             // movdqu    oword [r8 + 2*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2059             // movdqu    xmm1, oword [rcx + 2*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3059             // movdqu    xmm2, oword [rcx + 2*rbx + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x585c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm1
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB2_208
+	JMP  LBB2_347
+
+LBB2_209:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_354
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_211:
+	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x581c             // movdqu    oword [r8 + 2*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2059             // movdqu    xmm1, oword [rcx + 2*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3059             // movdqu    xmm2, oword [rcx + 2*rbx + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x585c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm1
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB2_211
+	JMP  LBB2_355
+
+LBB2_212:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_362
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_214:
+	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xd81c             // movdqu    oword [r8 + 8*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20d9             // movdqu    xmm1, oword [rcx + 8*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x30d9             // movdqu    xmm2, oword [rcx + 8*rbx + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xd85c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm1
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB2_214
+	JMP  LBB2_363
+
+LBB2_215:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
+	LONG $0x03ebc148         // shr    rbx, 3
+	LONG $0x01c38348         // add    rbx, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_370
+	WORD $0x8948; BYTE $0xde // mov    rsi, rbx
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB2_217:
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
+	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
+	LONG $0x54110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
+	LONG $0x64110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm4
+	LONG $0x54110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB2_217
+	JMP  LBB2_371
+
+LBB2_218:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xd3b60f41             // movzx    edx, r11b
+	LONG $0xc26e0f66             // movd    xmm0, edx
+	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_378
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_220:
+	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
+	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x181c             // movdqu    oword [r8 + rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2019             // movdqu    xmm1, oword [rcx + rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3019             // movdqu    xmm2, oword [rcx + rbx + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x185c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm1
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB2_220
+	JMP  LBB2_379
+
+LBB2_221:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_386
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_223:
+	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x981c             // movdqu    oword [r8 + 4*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2099             // movdqu    xmm1, oword [rcx + 4*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3099             // movdqu    xmm2, oword [rcx + 4*rbx + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x985c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm1
+	LONG $0x10c38348                           // add    rbx, 16
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB2_223
+	JMP  LBB2_387
+
+LBB2_254:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8468d48             // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x03ebc149             // shr    r11, 3
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_394
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_256:
+	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2099             // movdqu    xmm1, oword [rcx + 4*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3099             // movdqu    xmm2, oword [rcx + 4*rbx + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
+	LONG $0x10c38348                           // add    rbx, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_256
+	JMP  LBB2_395
+
+LBB2_257:
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
+	LONG $0x02eac149         // shr    r10, 2
+	LONG $0x01c28349         // add    r10, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB2_402
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xdb31             // xor    ebx, ebx
+
+LBB2_259:
+	LONG $0x14100f66; BYTE $0xd9               // movupd    xmm2, oword [rcx + 8*rbx]
+	LONG $0x5c100f66; WORD $0x10d9             // movupd    xmm3, oword [rcx + 8*rbx + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
+	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
+	LONG $0x54100f66; WORD $0x20d9             // movupd    xmm2, oword [rcx + 8*rbx + 32]
+	LONG $0x5c100f66; WORD $0x30d9             // movupd    xmm3, oword [rcx + 8*rbx + 48]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xd854; BYTE $0x20 // movupd    oword [r8 + 8*rbx + 32], xmm2
+	LONG $0x110f4166; WORD $0xd85c; BYTE $0x30 // movupd    oword [r8 + 8*rbx + 48], xmm3
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_259
+	JMP  LBB2_403
+
+LBB2_260:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc6b60f41             // movzx    eax, r14b
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_410
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_262:
+	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
+	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2019             // movdqu    xmm1, oword [rcx + rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3019             // movdqu    xmm2, oword [rcx + rbx + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_262
+	JMP  LBB2_411
+
+LBB2_263:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x02ebc149             // shr    r11, 2
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_418
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_265:
+	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20d9             // movdqu    xmm1, oword [rcx + 8*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x30d9             // movdqu    xmm2, oword [rcx + 8*rbx + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_265
+	JMP  LBB2_419
+
+LBB2_266:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_426
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_268:
+	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2059             // movdqu    xmm1, oword [rcx + 2*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3059             // movdqu    xmm2, oword [rcx + 2*rbx + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_268
+	JMP  LBB2_427
+
+LBB2_269:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_434
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_271:
+	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2059             // movdqu    xmm1, oword [rcx + 2*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3059             // movdqu    xmm2, oword [rcx + 2*rbx + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_271
+	JMP  LBB2_435
+
+LBB2_272:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x02ebc149             // shr    r11, 2
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_442
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_274:
+	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20d9             // movdqu    xmm1, oword [rcx + 8*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x30d9             // movdqu    xmm2, oword [rcx + 8*rbx + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_274
+	JMP  LBB2_443
+
+LBB2_275:
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
+	LONG $0x03eac149         // shr    r10, 3
+	LONG $0x01c28349         // add    r10, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB2_450
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xdb31             // xor    ebx, ebx
+
+LBB2_277:
+	LONG $0x9914100f               // movups    xmm2, oword [rcx + 4*rbx]
+	LONG $0x995c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rbx + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
+	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
+	LONG $0x9954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rbx + 32]
+	LONG $0x995c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rbx + 48]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x2098 // movups    oword [r8 + 4*rbx + 32], xmm2
+	LONG $0x5c110f41; WORD $0x3098 // movups    oword [r8 + 4*rbx + 48], xmm3
+	LONG $0x10c38348               // add    rbx, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB2_277
+	JMP  LBB2_451
+
+LBB2_278:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc6b60f41             // movzx    eax, r14b
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_458
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_280:
+	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
+	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2019             // movdqu    xmm1, oword [rcx + rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3019             // movdqu    xmm2, oword [rcx + rbx + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_280
+	JMP  LBB2_459
+
+LBB2_281:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8468d48             // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x03ebc149             // shr    r11, 3
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_466
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_283:
+	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2099             // movdqu    xmm1, oword [rcx + 4*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3099             // movdqu    xmm2, oword [rcx + 4*rbx + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
+	LONG $0x10c38348                           // add    rbx, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_283
+	JMP  LBB2_467
+
+LBB2_284:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8468d48             // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x03ebc149             // shr    r11, 3
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_658
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_286:
+	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2099             // movdqu    xmm1, oword [rcx + 4*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3099             // movdqu    xmm2, oword [rcx + 4*rbx + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
+	LONG $0x10c38348                           // add    rbx, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_286
+	JMP  LBB2_659
+
+LBB2_287:
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
+	LONG $0x02eac149         // shr    r10, 2
+	LONG $0x01c28349         // add    r10, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB2_666
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xdb31             // xor    ebx, ebx
+
+LBB2_289:
+	LONG $0x14100f66; BYTE $0xd9               // movupd    xmm2, oword [rcx + 8*rbx]
+	LONG $0x5c100f66; WORD $0x10d9             // movupd    xmm3, oword [rcx + 8*rbx + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
+	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
+	LONG $0x54100f66; WORD $0x20d9             // movupd    xmm2, oword [rcx + 8*rbx + 32]
+	LONG $0x5c100f66; WORD $0x30d9             // movupd    xmm3, oword [rcx + 8*rbx + 48]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xd854; BYTE $0x20 // movupd    oword [r8 + 8*rbx + 32], xmm2
+	LONG $0x110f4166; WORD $0xd85c; BYTE $0x30 // movupd    oword [r8 + 8*rbx + 48], xmm3
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_289
+	JMP  LBB2_667
+
+LBB2_290:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc6b60f41             // movzx    eax, r14b
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_674
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_292:
+	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
+	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2019             // movdqu    xmm1, oword [rcx + rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3019             // movdqu    xmm2, oword [rcx + rbx + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_292
+	JMP  LBB2_675
+
+LBB2_293:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x02ebc149             // shr    r11, 2
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_682
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_295:
+	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20d9             // movdqu    xmm1, oword [rcx + 8*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x30d9             // movdqu    xmm2, oword [rcx + 8*rbx + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_295
+	JMP  LBB2_683
+
+LBB2_296:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_690
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_298:
+	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2059             // movdqu    xmm1, oword [rcx + 2*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3059             // movdqu    xmm2, oword [rcx + 2*rbx + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_298
+	JMP  LBB2_691
+
+LBB2_299:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_698
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_301:
+	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2059             // movdqu    xmm1, oword [rcx + 2*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3059             // movdqu    xmm2, oword [rcx + 2*rbx + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_301
+	JMP  LBB2_699
+
+LBB2_302:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x02ebc149             // shr    r11, 2
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_706
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_304:
+	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20d9             // movdqu    xmm1, oword [rcx + 8*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x30d9             // movdqu    xmm2, oword [rcx + 8*rbx + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_304
+	JMP  LBB2_707
+
+LBB2_305:
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
+	LONG $0x03eac149         // shr    r10, 3
+	LONG $0x01c28349         // add    r10, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB2_714
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xdb31             // xor    ebx, ebx
+
+LBB2_307:
+	LONG $0x9914100f               // movups    xmm2, oword [rcx + 4*rbx]
+	LONG $0x995c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rbx + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
+	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
+	LONG $0x9954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rbx + 32]
+	LONG $0x995c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rbx + 48]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x2098 // movups    oword [r8 + 4*rbx + 32], xmm2
+	LONG $0x5c110f41; WORD $0x3098 // movups    oword [r8 + 4*rbx + 48], xmm3
+	LONG $0x10c38348               // add    rbx, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB2_307
+	JMP  LBB2_715
+
+LBB2_308:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc6b60f41             // movzx    eax, r14b
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_722
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_310:
+	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
+	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2019             // movdqu    xmm1, oword [rcx + rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3019             // movdqu    xmm2, oword [rcx + rbx + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_310
+	JMP  LBB2_723
+
+LBB2_311:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8468d48             // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x03ebc149             // shr    r11, 3
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_730
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_313:
+	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2099             // movdqu    xmm1, oword [rcx + 4*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3099             // movdqu    xmm2, oword [rcx + 4*rbx + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
+	LONG $0x10c38348                           // add    rbx, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_313
+	JMP  LBB2_731
+
+LBB2_314:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_315:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_317
+	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x981c             // movdqu    oword [r8 + 4*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x9844; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm0
+
+LBB2_317:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_517
+	JMP  LBB2_318
+
+LBB2_322:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_323:
+	WORD $0xc3f6; BYTE $0x01                   // test    bl, 1
+	JE   LBB2_325
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xcb5c0f66                           // subpd    xmm1, xmm3
+	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
+
+LBB2_325:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_517
+	JMP  LBB2_326
+
+LBB2_330:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_331:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_333
+	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
+	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x181c             // movdqu    oword [r8 + rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x1844; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm0
+
+LBB2_333:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_517
+	JMP  LBB2_334
+
+LBB2_338:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_339:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_341
+	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xd81c             // movdqu    oword [r8 + 8*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0xd844; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm0
+
+LBB2_341:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_517
+	JMP  LBB2_342
+
+LBB2_346:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_347:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_349
+	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x581c             // movdqu    oword [r8 + 2*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x5844; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm0
+
+LBB2_349:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_517
+	JMP  LBB2_350
+
+LBB2_354:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_355:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_357
+	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x581c             // movdqu    oword [r8 + 2*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x5844; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm0
+
+LBB2_357:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_517
+	JMP  LBB2_358
+
+LBB2_362:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_363:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_365
+	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xd81c             // movdqu    oword [r8 + 8*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0xd844; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm0
+
+LBB2_365:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_517
+	JMP  LBB2_366
+
+LBB2_370:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_371:
+	WORD $0xc3f6; BYTE $0x01       // test    bl, 1
+	JE   LBB2_373
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x5c0f; BYTE $0xcb       // subps    xmm1, xmm3
+	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
+	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
+
+LBB2_373:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_517
+	JMP  LBB2_374
+
+LBB2_378:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_379:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_381
+	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
+	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x181c             // movdqu    oword [r8 + rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x1844; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm0
+
+LBB2_381:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_517
+	JMP  LBB2_382
+
+LBB2_386:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_387:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_389
+	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x981c             // movdqu    oword [r8 + 4*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x9844; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm0
+
+LBB2_389:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_517
+	JMP  LBB2_390
+
+LBB2_394:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_395:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_397
+	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+
+LBB2_397:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_474
+	JMP  LBB2_398
+
+LBB2_402:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_403:
+	LONG $0x01c2f641                           // test    r10b, 1
+	JE   LBB2_405
+	LONG $0x14100f66; BYTE $0xd9               // movupd    xmm2, oword [rcx + 8*rbx]
+	LONG $0x5c100f66; WORD $0x10d9             // movupd    xmm3, oword [rcx + 8*rbx + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
+	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
+
+LBB2_405:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB2_474
+	JMP  LBB2_406
+
+LBB2_410:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_411:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_413
+	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
+	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+
+LBB2_413:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_474
+	JMP  LBB2_414
+
+LBB2_418:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_419:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_421
+	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+
+LBB2_421:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_474
+	JMP  LBB2_422
+
+LBB2_426:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_427:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_429
+	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+
+LBB2_429:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_474
+	JMP  LBB2_430
+
+LBB2_434:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_435:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_437
+	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+
+LBB2_437:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_474
+	JMP  LBB2_438
+
+LBB2_442:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_443:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_445
+	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+
+LBB2_445:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_474
+	JMP  LBB2_446
+
+LBB2_450:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_451:
+	LONG $0x01c2f641               // test    r10b, 1
+	JE   LBB2_453
+	LONG $0x9914100f               // movups    xmm2, oword [rcx + 4*rbx]
+	LONG $0x995c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rbx + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
+	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
+
+LBB2_453:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB2_474
+	JMP  LBB2_454
+
+LBB2_458:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_459:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_461
+	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
+	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+
+LBB2_461:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_474
+	JMP  LBB2_462
+
+LBB2_466:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_467:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_469
+	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+
+LBB2_469:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB2_470
+
+LBB2_474:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_482
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_489
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_499
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_502
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_13
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_481
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_548
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_548
+
+LBB2_481:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_582:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_584
+
+LBB2_583:
+	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_583
+
+LBB2_584:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_13
+
+LBB2_585:
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_585
+	JMP  LBB2_13
+
+LBB2_482:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_494
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_505
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_508
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_13
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_488
+	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_551
+	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_551
+
+LBB2_488:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_590:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_592
+
+LBB2_591:
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	LONG $0x0c5c0ff2; BYTE $0xf1   // subsd    xmm1, qword [rcx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB2_591
+
+LBB2_592:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB2_13
+
+LBB2_593:
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x0c5c0ff2; BYTE $0xf1               // subsd    xmm1, qword [rcx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf00c             // movsd    qword [r8 + 8*rsi], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x08f1             // subsd    xmm1, qword [rcx + 8*rsi + 8]
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x10f1             // subsd    xmm1, qword [rcx + 8*rsi + 16]
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x18f1             // subsd    xmm1, qword [rcx + 8*rsi + 24]
+	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB2_593
+	JMP  LBB2_13
+
+LBB2_489:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_511
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB2_13
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_493
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_554
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_554
+
+LBB2_493:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_598:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_600
+
+LBB2_599:
+	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_599
+
+LBB2_600:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_13
+
+LBB2_601:
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_601
+	JMP  LBB2_13
+
+LBB2_494:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_514
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_13
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_498
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_557
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_557
+
+LBB2_498:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_606:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_608
+
+LBB2_607:
+	WORD $0x894c; BYTE $0xf0 // mov    rax, r14
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_607
+
+LBB2_608:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_13
+
+LBB2_609:
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_609
+	JMP  LBB2_13
+
+LBB2_499:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x32b70f44         // movzx    r14d, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_501
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_560
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_560
+
+LBB2_501:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_614:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_616
+
+LBB2_615:
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB2_615
+
+LBB2_616:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_13
+
+LBB2_617:
+	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_617
+	JMP  LBB2_13
+
+LBB2_502:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x32b70f44         // movzx    r14d, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_504
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_563
+	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_563
+
+LBB2_504:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_622:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_624
+
+LBB2_623:
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc38348             // add    rbx, -1
+	JNE  LBB2_623
+
+LBB2_624:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_13
+
+LBB2_625:
+	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_625
+	JMP  LBB2_13
+
+LBB2_505:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_507
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_566
+	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_566
+
+LBB2_507:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_630:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_632
+
+LBB2_631:
+	WORD $0x894c; BYTE $0xf0 // mov    rax, r14
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_631
+
+LBB2_632:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_13
+
+LBB2_633:
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_633
+	JMP  LBB2_13
+
+LBB2_508:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
+	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_510
+	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_569
+	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_569
+
+LBB2_510:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_638:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd8 // add    rax, r11
+	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_640
+
+LBB2_639:
+	WORD $0x280f; BYTE $0xc8       // movaps    xmm1, xmm0
+	LONG $0x0c5c0ff3; BYTE $0xb1   // subss    xmm1, dword [rcx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc38348               // add    rbx, -1
+	JNE  LBB2_639
+
+LBB2_640:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB2_13
+
+LBB2_641:
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x0c5c0ff3; BYTE $0xb1               // subss    xmm1, dword [rcx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb00c             // movss    dword [r8 + 4*rsi], xmm1
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x04b1             // subss    xmm1, dword [rcx + 4*rsi + 4]
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x08b1             // subss    xmm1, dword [rcx + 4*rsi + 8]
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x0cb1             // subss    xmm1, dword [rcx + 4*rsi + 12]
+	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm1
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
+	JNE  LBB2_641
+	JMP  LBB2_13
+
+LBB2_511:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_513
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_572
+	LONG $0x10048d4b         // lea    rax, [r8 + r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_572
+
+LBB2_513:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_646:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_648
+
+LBB2_647:
+	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_647
+
+LBB2_648:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_13
+
+LBB2_649:
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_649
+	JMP  LBB2_13
+
+LBB2_514:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_517
+	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_516
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	JBE  LBB2_575
+	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
+	JBE  LBB2_575
+
+LBB2_516:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_654:
+	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
+	WORD $0xf749; BYTE $0xd3 // not    r11
+	WORD $0x014d; BYTE $0xd3 // add    r11, r10
+	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
+	LONG $0x03e38348         // and    rbx, 3
+	JE   LBB2_656
+
+LBB2_655:
+	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc38348         // add    rbx, -1
+	JNE  LBB2_655
+
+LBB2_656:
+	LONG $0x03fb8349 // cmp    r11, 3
+	JB   LBB2_13
+
+LBB2_657:
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_657
+	JMP  LBB2_13
+
+LBB2_517:
+	RET
+
+LBB2_548:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8468d48             // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x03ebc149             // shr    r11, 3
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_578
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_550:
+	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x981c             // movdqu    oword [r8 + 4*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2099             // movdqu    xmm1, oword [rcx + 4*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3099             // movdqu    xmm2, oword [rcx + 4*rbx + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x985c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm1
+	LONG $0x10c38348                           // add    rbx, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_550
+	JMP  LBB2_579
+
+LBB2_551:
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
+	LONG $0x02eac149         // shr    r10, 2
+	LONG $0x01c28349         // add    r10, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB2_586
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xdb31             // xor    ebx, ebx
+
+LBB2_553:
+	LONG $0x14100f66; BYTE $0xd9               // movupd    xmm2, oword [rcx + 8*rbx]
+	LONG $0x5c100f66; WORD $0x10d9             // movupd    xmm3, oword [rcx + 8*rbx + 16]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xd1280f66                           // movapd    xmm2, xmm1
+	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
+	LONG $0x110f4166; WORD $0xd824             // movupd    oword [r8 + 8*rbx], xmm4
+	LONG $0x110f4166; WORD $0xd854; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm2
+	LONG $0x54100f66; WORD $0x20d9             // movupd    xmm2, oword [rcx + 8*rbx + 32]
+	LONG $0x5c100f66; WORD $0x30d9             // movupd    xmm3, oword [rcx + 8*rbx + 48]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xd1280f66                           // movapd    xmm2, xmm1
+	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
+	LONG $0x110f4166; WORD $0xd864; BYTE $0x20 // movupd    oword [r8 + 8*rbx + 32], xmm4
+	LONG $0x110f4166; WORD $0xd854; BYTE $0x30 // movupd    oword [r8 + 8*rbx + 48], xmm2
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_553
+	JMP  LBB2_587
+
+LBB2_554:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc6b60f41             // movzx    eax, r14b
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_594
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_556:
+	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
+	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x181c             // movdqu    oword [r8 + rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2019             // movdqu    xmm1, oword [rcx + rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3019             // movdqu    xmm2, oword [rcx + rbx + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x185c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm1
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_556
+	JMP  LBB2_595
+
+LBB2_557:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x02ebc149             // shr    r11, 2
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_602
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_559:
+	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xd81c             // movdqu    oword [r8 + 8*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20d9             // movdqu    xmm1, oword [rcx + 8*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x30d9             // movdqu    xmm2, oword [rcx + 8*rbx + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xd85c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm1
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_559
+	JMP  LBB2_603
+
+LBB2_560:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_610
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_562:
+	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x581c             // movdqu    oword [r8 + 2*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2059             // movdqu    xmm1, oword [rcx + 2*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3059             // movdqu    xmm2, oword [rcx + 2*rbx + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x585c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm1
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_562
+	JMP  LBB2_611
+
+LBB2_563:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0468d48             // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x04ebc149             // shr    r11, 4
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_618
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_565:
+	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x581c             // movdqu    oword [r8 + 2*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2059             // movdqu    xmm1, oword [rcx + 2*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3059             // movdqu    xmm2, oword [rcx + 2*rbx + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x585c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm1
+	LONG $0x20c38348                           // add    rbx, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_565
+	JMP  LBB2_619
+
+LBB2_566:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc468d48             // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x02ebc149             // shr    r11, 2
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_626
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_568:
+	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xd81c             // movdqu    oword [r8 + 8*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20d9             // movdqu    xmm1, oword [rcx + 8*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x30d9             // movdqu    xmm2, oword [rcx + 8*rbx + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xd85c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm1
+	LONG $0x08c38348                           // add    rbx, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_568
+	JMP  LBB2_627
+
+LBB2_569:
+	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
+	LONG $0x03eac149         // shr    r10, 3
+	LONG $0x01c28349         // add    r10, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB2_634
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xdb31             // xor    ebx, ebx
+
+LBB2_571:
+	LONG $0x9914100f               // movups    xmm2, oword [rcx + 4*rbx]
+	LONG $0x995c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rbx + 16]
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
+	LONG $0x24110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm4
+	LONG $0x54110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm2
+	LONG $0x9954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rbx + 32]
+	LONG $0x995c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rbx + 48]
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
+	LONG $0x64110f41; WORD $0x2098 // movups    oword [r8 + 4*rbx + 32], xmm4
+	LONG $0x54110f41; WORD $0x3098 // movups    oword [r8 + 4*rbx + 48], xmm2
+	LONG $0x10c38348               // add    rbx, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB2_571
+	JMP  LBB2_635
+
+LBB2_572:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc6b60f41             // movzx    eax, r14b
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0468d48             // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x05ebc149             // shr    r11, 5
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_642
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_574:
+	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
+	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x181c             // movdqu    oword [r8 + rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2019             // movdqu    xmm1, oword [rcx + rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3019             // movdqu    xmm2, oword [rcx + rbx + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x185c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm1
+	LONG $0x40c38348                           // add    rbx, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_574
+	JMP  LBB2_643
+
+LBB2_575:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8468d48             // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
+	LONG $0x03ebc149             // shr    r11, 3
+	LONG $0x01c38349             // add    r11, 1
+	WORD $0x8548; BYTE $0xc0     // test    rax, rax
+	JE   LBB2_650
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xfee08348             // and    rax, -2
+	WORD $0xf748; BYTE $0xd8     // neg    rax
+	WORD $0xdb31                 // xor    ebx, ebx
+
+LBB2_577:
+	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x981c             // movdqu    oword [r8 + 4*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2099             // movdqu    xmm1, oword [rcx + 4*rbx + 32]
+	LONG $0x546f0ff3; WORD $0x3099             // movdqu    xmm2, oword [rcx + 4*rbx + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x985c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm1
+	LONG $0x10c38348                           // add    rbx, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB2_577
+	JMP  LBB2_651
+
+LBB2_578:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_579:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_581
+	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x981c             // movdqu    oword [r8 + 4*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x9844; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm0
+
+LBB2_581:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_13
+	JMP  LBB2_582
+
+LBB2_586:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_587:
+	LONG $0x01c2f641                           // test    r10b, 1
+	JE   LBB2_589
+	LONG $0x14100f66; BYTE $0xd9               // movupd    xmm2, oword [rcx + 8*rbx]
+	LONG $0x5c100f66; WORD $0x10d9             // movupd    xmm3, oword [rcx + 8*rbx + 16]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xcb5c0f66                           // subpd    xmm1, xmm3
+	LONG $0x110f4166; WORD $0xd824             // movupd    oword [r8 + 8*rbx], xmm4
+	LONG $0x110f4166; WORD $0xd84c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm1
+
+LBB2_589:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB2_13
+	JMP  LBB2_590
+
+LBB2_594:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_595:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_597
+	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
+	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x181c             // movdqu    oword [r8 + rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x1844; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm0
+
+LBB2_597:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_13
+	JMP  LBB2_598
+
+LBB2_602:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_603:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_605
+	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xd81c             // movdqu    oword [r8 + 8*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0xd844; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm0
+
+LBB2_605:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_13
+	JMP  LBB2_606
+
+LBB2_610:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_611:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_613
+	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x581c             // movdqu    oword [r8 + 2*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x5844; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm0
+
+LBB2_613:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_13
+	JMP  LBB2_614
+
+LBB2_618:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_619:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_621
+	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x581c             // movdqu    oword [r8 + 2*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x5844; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm0
+
+LBB2_621:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_13
+	JMP  LBB2_622
+
+LBB2_626:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_627:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_629
+	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xd81c             // movdqu    oword [r8 + 8*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0xd844; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm0
+
+LBB2_629:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_13
+	JMP  LBB2_630
+
+LBB2_634:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_635:
+	LONG $0x01c2f641               // test    r10b, 1
+	JE   LBB2_637
+	LONG $0x9914100f               // movups    xmm2, oword [rcx + 4*rbx]
+	LONG $0x995c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rbx + 16]
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x5c0f; BYTE $0xcb       // subps    xmm1, xmm3
+	LONG $0x24110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm4
+	LONG $0x4c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm1
+
+LBB2_637:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB2_13
+	JMP  LBB2_638
+
+LBB2_642:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_643:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_645
+	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
+	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x181c             // movdqu    oword [r8 + rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x1844; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm0
+
+LBB2_645:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_13
+	JMP  LBB2_646
+
+LBB2_650:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_651:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_653
+	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x981c             // movdqu    oword [r8 + 4*rbx], xmm3
+	LONG $0x7f0f41f3; WORD $0x9844; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm0
+
+LBB2_653:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_13
+	JMP  LBB2_654
+
+LBB2_658:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_659:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_661
+	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+
+LBB2_661:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_3
+	JMP  LBB2_662
+
+LBB2_666:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_667:
+	LONG $0x01c2f641                           // test    r10b, 1
+	JE   LBB2_669
+	LONG $0x14100f66; BYTE $0xd9               // movupd    xmm2, oword [rcx + 8*rbx]
+	LONG $0x5c100f66; WORD $0x10d9             // movupd    xmm3, oword [rcx + 8*rbx + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
+	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
+
+LBB2_669:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB2_3
+	JMP  LBB2_670
+
+LBB2_674:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_675:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_677
+	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
+	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+
+LBB2_677:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_3
+	JMP  LBB2_678
+
+LBB2_682:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_683:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_685
+	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+
+LBB2_685:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_3
+	JMP  LBB2_686
+
+LBB2_690:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_691:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_693
+	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+
+LBB2_693:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_3
+	JMP  LBB2_694
+
+LBB2_698:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_699:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_701
+	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
+	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+
+LBB2_701:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_3
+	JMP  LBB2_702
+
+LBB2_706:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_707:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_709
+	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
+	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+
+LBB2_709:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_3
+	JMP  LBB2_710
+
+LBB2_714:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_715:
+	LONG $0x01c2f641               // test    r10b, 1
+	JE   LBB2_717
+	LONG $0x9914100f               // movups    xmm2, oword [rcx + 4*rbx]
+	LONG $0x995c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rbx + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
+	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
+
+LBB2_717:
+	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
+	JE   LBB2_3
+	JMP  LBB2_718
+
+LBB2_722:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_723:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_725
+	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
+	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+
+LBB2_725:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_3
+	JMP  LBB2_726
+
+LBB2_730:
+	WORD $0xdb31 // xor    ebx, ebx
+
+LBB2_731:
+	LONG $0x01c3f641                           // test    r11b, 1
+	JE   LBB2_733
+	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
+	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
+	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+
+LBB2_733:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_3
+	JMP  LBB2_734
diff --git a/go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go b/go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go
new file mode 100644
index 00000000000..8f73f044768
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go
@@ -0,0 +1,32 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+//go:build noasm
+
+package kernels
+
+import (
+	"github.com/apache/arrow/go/v10/arrow/compute/internal/exec"
+	"golang.org/x/exp/constraints"
+)
+
+func getArithmeticBinaryOpsFloating[T constraints.Float](op ArithmeticOp) binaryOps[T, T, T] {
+	return getGoArithmeticBinaryOps[T](op)
+}
+
+func getArithmeticBinaryOpsIntegral[T exec.UintTypes | exec.IntTypes](op ArithmeticOp) binaryOps[T, T, T] {
+	return getGoArithmeticBinaryOps[T](op)
+}
diff --git a/go/arrow/compute/internal/kernels/helpers.go b/go/arrow/compute/internal/kernels/helpers.go
index 1da86803be8..b90399e18e8 100644
--- a/go/arrow/compute/internal/kernels/helpers.go
+++ b/go/arrow/compute/internal/kernels/helpers.go
@@ -23,7 +23,9 @@ import (
 	"github.com/apache/arrow/go/v10/arrow"
 	"github.com/apache/arrow/go/v10/arrow/bitutil"
 	"github.com/apache/arrow/go/v10/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v10/arrow/internal/debug"
 	"github.com/apache/arrow/go/v10/arrow/memory"
+	"github.com/apache/arrow/go/v10/arrow/scalar"
 	"github.com/apache/arrow/go/v10/internal/bitutils"
 	"golang.org/x/exp/constraints"
 )
@@ -159,6 +161,72 @@ func ScalarUnaryBoolArg[OutT exec.FixedWidthTypes](op func(*exec.KernelCtx, []by
 	}
 }
 
+func UnboxScalar[T exec.FixedWidthTypes](val scalar.PrimitiveScalar) T {
+	return exec.GetData[T](val.Data())[0]
+}
+
+func UnboxBinaryScalar(val scalar.BinaryScalar) []byte {
+	if !val.IsValid() {
+		return nil
+	}
+	return val.Data()
+}
+
+type binaryOps[OutT, Arg0T, Arg1T exec.FixedWidthTypes] struct {
+	arrArr    func(*exec.KernelCtx, []Arg0T, []Arg1T, []OutT) error
+	arrScalar func(*exec.KernelCtx, []Arg0T, Arg1T, []OutT) error
+	scalarArr func(*exec.KernelCtx, Arg0T, []Arg1T, []OutT) error
+}
+
+func ScalarBinary[OutT, Arg0T, Arg1T exec.FixedWidthTypes](ops binaryOps[OutT, Arg0T, Arg1T]) exec.ArrayKernelExec {
+	arrayArray := func(ctx *exec.KernelCtx, arg0, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
+		var (
+			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
+			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
+			outData = exec.GetSpanValues[OutT](out, 1)
+		)
+		return ops.arrArr(ctx, a0, a1, outData)
+	}
+
+	arrayScalar := func(ctx *exec.KernelCtx, arg0 *exec.ArraySpan, arg1 scalar.Scalar, out *exec.ExecResult) error {
+		var (
+			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
+			a1      = UnboxScalar[Arg1T](arg1.(scalar.PrimitiveScalar))
+			outData = exec.GetSpanValues[OutT](out, 1)
+		)
+		return ops.arrScalar(ctx, a0, a1, outData)
+	}
+
+	scalarArray := func(ctx *exec.KernelCtx, arg0 scalar.Scalar, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
+		var (
+			a0      = UnboxScalar[Arg0T](arg0.(scalar.PrimitiveScalar))
+			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
+			outData = exec.GetSpanValues[OutT](out, 1)
+		)
+		return ops.scalarArr(ctx, a0, a1, outData)
+	}
+
+	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+		if batch.Values[0].IsArray() {
+			if batch.Values[1].IsArray() {
+				return arrayArray(ctx, &batch.Values[0].Array, &batch.Values[1].Array, out)
+			}
+			return arrayScalar(ctx, &batch.Values[0].Array, batch.Values[1].Scalar, out)
+		}
+
+		if batch.Values[1].IsArray() {
+			return scalarArray(ctx, batch.Values[0].Scalar, &batch.Values[1].Array, out)
+		}
+
+		debug.Assert(false, "should be unreachable")
+		return fmt.Errorf("%w: scalar binary with two scalars?", arrow.ErrInvalid)
+	}
+}
+
+func ScalarBinaryEqualTypes[OutT, ArgT exec.FixedWidthTypes](ops binaryOps[OutT, ArgT, ArgT]) exec.ArrayKernelExec {
+	return ScalarBinary(ops)
+}
+
 // SizeOf determines the size in number of bytes for an integer
 // based on the generic value in a way that the compiler should
 // be able to easily evaluate and create as a constant.
diff --git a/go/arrow/compute/internal/kernels/scalar_arithmetic.go b/go/arrow/compute/internal/kernels/scalar_arithmetic.go
new file mode 100644
index 00000000000..cbe92f199eb
--- /dev/null
+++ b/go/arrow/compute/internal/kernels/scalar_arithmetic.go
@@ -0,0 +1,45 @@
+// Licensed to the Apache Software Foundation (ASF) under one
+// or more contributor license agreements.  See the NOTICE file
+// distributed with this work for additional information
+// regarding copyright ownership.  The ASF licenses this file
+// to you under the Apache License, Version 2.0 (the
+// "License"); you may not use this file except in compliance
+// with the License.  You may obtain a copy of the License at
+//
+// http://www.apache.org/licenses/LICENSE-2.0
+//
+// Unless required by applicable law or agreed to in writing, software
+// distributed under the License is distributed on an "AS IS" BASIS,
+// WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+// See the License for the specific language governing permissions and
+// limitations under the License.
+
+package kernels
+
+import (
+	"github.com/apache/arrow/go/v10/arrow"
+	"github.com/apache/arrow/go/v10/arrow/compute/internal/exec"
+)
+
+// scalar kernel that ignores (assumed all-null inputs) and returns null
+func NullToNullExec(_ *exec.KernelCtx, _ *exec.ExecSpan, _ *exec.ExecResult) error {
+	return nil
+}
+
+func NullExecKernel(nargs int) exec.ScalarKernel {
+	in := make([]exec.InputType, nargs)
+	for i := range in {
+		in[i] = exec.NewIDInput(arrow.NULL)
+	}
+	return exec.NewScalarKernel(in, exec.NewOutputType(arrow.Null), NullToNullExec, nil)
+}
+
+func GetArithmeticKernels(op ArithmeticOp) []exec.ScalarKernel {
+	kernels := make([]exec.ScalarKernel, 0)
+	for _, ty := range numericTypes {
+		kernels = append(kernels, exec.NewScalarKernel(
+			[]exec.InputType{exec.NewExactInput(ty), exec.NewExactInput(ty)},
+			exec.NewOutputType(ty), ArithmeticExec(ty.ID(), op), nil))
+	}
+	return append(kernels, NullExecKernel(2))
+}
diff --git a/go/arrow/compute/internal/kernels/types.go b/go/arrow/compute/internal/kernels/types.go
index bffb27e8801..eeae4b6c4e6 100644
--- a/go/arrow/compute/internal/kernels/types.go
+++ b/go/arrow/compute/internal/kernels/types.go
@@ -35,7 +35,6 @@ var (
 	}
 	intTypes      = append(unsignedIntTypes, signedIntTypes...)
 	floatingTypes = []arrow.DataType{
-		arrow.FixedWidthTypes.Float16,
 		arrow.PrimitiveTypes.Float32,
 		arrow.PrimitiveTypes.Float64,
 	}
diff --git a/go/arrow/compute/registry.go b/go/arrow/compute/registry.go
index 7bb8d8c5995..d56605f407b 100644
--- a/go/arrow/compute/registry.go
+++ b/go/arrow/compute/registry.go
@@ -46,6 +46,7 @@ func GetFunctionRegistry() FunctionRegistry {
 		registry = NewRegistry()
 		RegisterScalarCast(registry)
 		RegisterVectorSelection(registry)
+		RegisterScalarArithmetic(registry)
 	})
 	return registry
 }
diff --git a/go/arrow/compute/utils.go b/go/arrow/compute/utils.go
index 32ad97b586d..1a05f75b7a5 100644
--- a/go/arrow/compute/utils.go
+++ b/go/arrow/compute/utils.go
@@ -20,7 +20,10 @@ import (
 	"io"
 	"math"
 
+	"github.com/apache/arrow/go/v10/arrow"
 	"github.com/apache/arrow/go/v10/arrow/bitutil"
+	"github.com/apache/arrow/go/v10/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v10/arrow/internal/debug"
 	"github.com/apache/arrow/go/v10/arrow/memory"
 	"golang.org/x/xerrors"
 )
@@ -81,3 +84,159 @@ func (b *bufferWriteSeeker) Seek(offset int64, whence int) (int64, error) {
 	b.pos = newpos
 	return int64(newpos), nil
 }
+
+func ensureDictionaryDecoded(vals ...arrow.DataType) {
+	for i, v := range vals {
+		if v.ID() == arrow.DICTIONARY {
+			vals[i] = v.(*arrow.DictionaryType).ValueType
+		}
+	}
+}
+
+func replaceNullWithOtherType(vals ...arrow.DataType) {
+	debug.Assert(len(vals) == 2, "should be length 2")
+
+	if vals[0].ID() == arrow.NULL {
+		vals[0] = vals[1]
+		return
+	}
+
+	if vals[1].ID() == arrow.NULL {
+		vals[1] = vals[0]
+		return
+	}
+}
+
+func commonTemporalResolution(vals ...arrow.DataType) (arrow.TimeUnit, bool) {
+	isTimeUnit := false
+	finestUnit := arrow.Second
+	for _, v := range vals {
+		switch dt := v.(type) {
+		case *arrow.Date32Type:
+			isTimeUnit = true
+			continue
+		case *arrow.Date64Type:
+			finestUnit = exec.Max(finestUnit, arrow.Millisecond)
+			isTimeUnit = true
+		case arrow.TemporalWithUnit:
+			finestUnit = exec.Max(finestUnit, dt.TimeUnit())
+			isTimeUnit = true
+		default:
+			continue
+		}
+	}
+	return finestUnit, isTimeUnit
+}
+
+func replaceTemporalTypes(unit arrow.TimeUnit, vals ...arrow.DataType) {
+	for i, v := range vals {
+		switch dt := v.(type) {
+		case *arrow.TimestampType:
+			dt.Unit = unit
+			vals[i] = dt
+		case *arrow.Time32Type, *arrow.Time64Type:
+			if unit > arrow.Millisecond {
+				vals[i] = &arrow.Time64Type{Unit: unit}
+			} else {
+				vals[i] = &arrow.Time32Type{Unit: unit}
+			}
+		case *arrow.DurationType:
+			dt.Unit = unit
+			vals[i] = dt
+		case *arrow.Date32Type, *arrow.Date64Type:
+			vals[i] = &arrow.TimestampType{Unit: unit}
+		}
+	}
+}
+
+func replaceTypes(replacement arrow.DataType, vals ...arrow.DataType) {
+	for i := range vals {
+		vals[i] = replacement
+	}
+}
+
+func commonNumeric(vals ...arrow.DataType) arrow.DataType {
+	for _, v := range vals {
+		if !arrow.IsFloating(v.ID()) && !arrow.IsInteger(v.ID()) {
+			// a common numeric type is only possible if all are numeric
+			return nil
+		}
+		if v.ID() == arrow.FLOAT16 {
+			// float16 arithmetic is not currently supported
+			return nil
+		}
+	}
+
+	for _, v := range vals {
+		if v.ID() == arrow.FLOAT64 {
+			return arrow.PrimitiveTypes.Float64
+		}
+	}
+
+	for _, v := range vals {
+		if v.ID() == arrow.FLOAT32 {
+			return arrow.PrimitiveTypes.Float32
+		}
+	}
+
+	maxWidthSigned, maxWidthUnsigned := 0, 0
+	for _, v := range vals {
+		if arrow.IsUnsignedInteger(v.ID()) {
+			maxWidthUnsigned = exec.Max(v.(arrow.FixedWidthDataType).BitWidth(), maxWidthUnsigned)
+		} else {
+			maxWidthSigned = exec.Max(v.(arrow.FixedWidthDataType).BitWidth(), maxWidthSigned)
+		}
+	}
+
+	if maxWidthSigned == 0 {
+		switch {
+		case maxWidthUnsigned >= 64:
+			return arrow.PrimitiveTypes.Uint64
+		case maxWidthUnsigned == 32:
+			return arrow.PrimitiveTypes.Uint32
+		case maxWidthUnsigned == 16:
+			return arrow.PrimitiveTypes.Uint16
+		default:
+			debug.Assert(maxWidthUnsigned == 8, "bad maxWidthUnsigned")
+			return arrow.PrimitiveTypes.Uint8
+		}
+	}
+
+	if maxWidthSigned <= maxWidthUnsigned {
+		maxWidthSigned = bitutil.NextPowerOf2(maxWidthUnsigned + 1)
+	}
+
+	switch {
+	case maxWidthSigned >= 64:
+		return arrow.PrimitiveTypes.Int64
+	case maxWidthSigned == 32:
+		return arrow.PrimitiveTypes.Int32
+	case maxWidthSigned == 16:
+		return arrow.PrimitiveTypes.Int16
+	default:
+		debug.Assert(maxWidthSigned == 8, "bad maxWidthSigned")
+		return arrow.PrimitiveTypes.Int8
+	}
+}
+
+func hasDecimal(vals ...arrow.DataType) bool {
+	for _, v := range vals {
+		if arrow.IsDecimal(v.ID()) {
+			return true
+		}
+	}
+
+	return false
+}
+
+type decimalPromotion uint8
+
+const (
+	decPromoteAdd decimalPromotion = iota
+	decPromoteMultiply
+	decPromoteDivide
+)
+
+func castBinaryDecimalArgs(promote decimalPromotion, vals ...arrow.DataType) error {
+	return arrow.ErrNotImplemented
+}
diff --git a/go/arrow/datatype.go b/go/arrow/datatype.go
index 2cd27cf64d7..8514a17161a 100644
--- a/go/arrow/datatype.go
+++ b/go/arrow/datatype.go
@@ -291,6 +291,16 @@ func IsUnsignedInteger(t Type) bool {
 	return false
 }
 
+// IsFloating is a helper that returns true if the type ID provided is
+// one of Float16, Float32, or Float64
+func IsFloating(t Type) bool {
+	switch t {
+	case FLOAT16, FLOAT32, FLOAT64:
+		return true
+	}
+	return false
+}
+
 // IsPrimitive returns true if the provided type ID represents a fixed width
 // primitive type.
 func IsPrimitive(t Type) bool {

From 555bbca08d51545e5dc8841ac5a44d82a28ef5c4 Mon Sep 17 00:00:00 2001
From: Matt Topol <zotthewizard@gmail.com>
Date: Tue, 27 Sep 2022 17:37:05 -0400
Subject: [PATCH 2/9] some extra comments

---
 go/arrow/compute/arithmetic.go | 14 ++++++++++++++
 1 file changed, 14 insertions(+)

diff --git a/go/arrow/compute/arithmetic.go b/go/arrow/compute/arithmetic.go
index 113b70b391a..e157a7b270a 100644
--- a/go/arrow/compute/arithmetic.go
+++ b/go/arrow/compute/arithmetic.go
@@ -124,6 +124,13 @@ func RegisterScalarArithmetic(reg FunctionRegistry) {
 	reg.AddFunction(subCheckedFn, false)
 }
 
+// Add performs an addition between the passed in arguments (scalar or array)
+// and returns the result. If one argument is a scalar and the other is an
+// array, the scalar value is added to each value of the array.
+//
+// ArithmeticOptions specifies whether or not to check for overflows,
+// performance is faster if not explicitly checking for overflows but
+// will error on an overflow if CheckOverflow is true.
 func Add(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
 	fn := "add"
 	if opts.CheckOverflow {
@@ -132,6 +139,13 @@ func Add(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum,
 	return CallFunction(ctx, fn, nil, left, right)
 }
 
+// Sub performs a subtraction between the passed in arguments (scalar or array)
+// and returns the result. If one argument is a scalar and the other is an
+// array, the scalar value is subtracted from each value of the array.
+//
+// ArithmeticOptions specifies whether or not to check for overflows,
+// performance is faster if not explicitly checking for overflows but
+// will error on an overflow if CheckOverflow is true.
 func Subtract(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
 	fn := "sub"
 	if opts.CheckOverflow {

From af439488e983c01b0d9151ca0e4de1b2e5878862 Mon Sep 17 00:00:00 2001
From: Matt Topol <zotthewizard@gmail.com>
Date: Tue, 27 Sep 2022 17:41:59 -0400
Subject: [PATCH 3/9] some more comments and move to vendored dir

---
 .../compute/internal/kernels/_lib/base_arithmetic.cc | 12 ++++++++++--
 go/arrow/compute/internal/kernels/_lib/types.h       |  6 +++---
 .../internal/kernels/_lib/{ => vendored}/safe-math.h |  0
 3 files changed, 13 insertions(+), 5 deletions(-)
 rename go/arrow/compute/internal/kernels/_lib/{ => vendored}/safe-math.h (100%)

diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc b/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
index 335434702c5..1895c2785f1 100644
--- a/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
+++ b/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
@@ -17,9 +17,9 @@
 #include <arch.h>
 #include <stdint.h>
 #include "types.h"
-#include "safe-math.h"
+#include "vendored/safe-math.h"
 
-	// Define functions AddWithOverflow, SubtractWithOverflow, MultiplyWithOverflow
+// Define functions AddWithOverflow, SubtractWithOverflow, MultiplyWithOverflow
 // with the signature `bool(T u, T v, T* out)` where T is an integer type.
 // On overflow, these functions return true.  Otherwise, false is returned
 // and `out` is updated with the result of the operation.
@@ -44,6 +44,14 @@ OPS_WITH_OVERFLOW(SubtractWithOverflow, sub)
 OPS_WITH_OVERFLOW(MultiplyWithOverflow, mul)
 OPS_WITH_OVERFLOW(DivideWithOverflow, div)
 
+// Corresponds to equivalent ArithmeticOp enum in base_arithmetic.go
+// for passing across which operation to perform. This allows simpler
+// implementation at the cost of having to pass the extra int8 and
+// perform a switch.
+//
+// In cases of small arrays, this is completely negligible. In cases
+// of large arrays, the time saved by using SIMD here is significantly
+// worth the cost.
 enum class optype : int8_t {
     ADD,
     ADD_CHECKED,
diff --git a/go/arrow/compute/internal/kernels/_lib/types.h b/go/arrow/compute/internal/kernels/_lib/types.h
index fe222501b4b..a08f2fe8347 100644
--- a/go/arrow/compute/internal/kernels/_lib/types.h
+++ b/go/arrow/compute/internal/kernels/_lib/types.h
@@ -31,9 +31,9 @@ enum class arrtype : int {
     FLOAT64
 };
 
-// Copied from <type_traits> since we use -target x86_64-target-none
-// makes life easier rather than creating is_integral, etc. templates
-// ourselves
+// The following is copied from <type_traits> since we use -target 
+// x86_64-target-none makes life easier rather than creating is_integral,
+// etc. templates ourselves
 
 /// remove_cv
   template<typename _Tp>
diff --git a/go/arrow/compute/internal/kernels/_lib/safe-math.h b/go/arrow/compute/internal/kernels/_lib/vendored/safe-math.h
similarity index 100%
rename from go/arrow/compute/internal/kernels/_lib/safe-math.h
rename to go/arrow/compute/internal/kernels/_lib/vendored/safe-math.h

From 475339832a00fd68ea7daeb87d9ed074b187ff09 Mon Sep 17 00:00:00 2001
From: Matt Topol <zotthewizard@gmail.com>
Date: Tue, 27 Sep 2022 17:54:04 -0400
Subject: [PATCH 4/9] forgot my break statements, that's what i get for
 refactoring

---
 .../internal/kernels/_lib/base_arithmetic.cc  |     4 +
 .../kernels/_lib/base_arithmetic_avx2_amd64.s | 21564 +++++++-------
 .../kernels/_lib/base_arithmetic_sse4_amd64.s | 23596 ++++++++--------
 .../kernels/base_arithmetic_avx2_amd64.s      | 21160 +++++++-------
 .../kernels/base_arithmetic_sse4_amd64.s      | 22402 ++++++++-------
 5 files changed, 44156 insertions(+), 44570 deletions(-)

diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc b/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
index 1895c2785f1..0596e2cbcba 100644
--- a/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
+++ b/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
@@ -227,12 +227,16 @@ static inline void arithmetic_impl(const int type, const int8_t op, const void*
     switch (opt) {
     case optype::ADD:
         arithmetic_op<Add, Impl>(type, in_left, in_right, out, len);
+        break;
     case optype::ADD_CHECKED:
         arithmetic_op<AddChecked, Impl>(type, in_left, in_right, out, len);
+        break;
     case optype::SUB:
         arithmetic_op<Sub, Impl>(type, in_left, in_right, out, len);
+        break;
     case optype::SUB_CHECKED:
         arithmetic_op<SubChecked, Impl>(type, in_left, in_right, out, len);
+        break;
     default:
         break;
     }
diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s
index 3a380e09da0..c8fc9055d51 100644
--- a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s
+++ b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s
@@ -8,89 +8,52 @@ arithmetic_avx2:                        # @arithmetic_avx2
 # %bb.0:
 	push	rbp
 	mov	rbp, rsp
-	push	r14
-	push	rbx
 	and	rsp, -8
 	cmp	sil, 1
-	jg	.LBB0_3
+	jg	.LBB0_10
 # %bb.1:
 	test	sil, sil
-	je	.LBB0_5
+	je	.LBB0_19
 # %bb.2:
 	cmp	sil, 1
 	jne	.LBB0_537
-.LBB0_138:
+# %bb.3:
 	cmp	edi, 6
-	jg	.LBB0_151
-# %bb.139:
+	jg	.LBB0_158
+# %bb.4:
 	cmp	edi, 3
-	jle	.LBB0_140
-# %bb.145:
+	jle	.LBB0_5
+# %bb.152:
 	cmp	edi, 4
-	je	.LBB0_184
-# %bb.146:
+	je	.LBB0_191
+# %bb.153:
 	cmp	edi, 5
-	je	.LBB0_196
-# %bb.147:
+	je	.LBB0_203
+# %bb.154:
 	cmp	edi, 6
-	jne	.LBB0_271
-# %bb.148:
+	jne	.LBB0_537
+# %bb.155:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.149:
-	mov	r11d, r9d
+# %bb.156:
+	mov	r10d, r9d
 	cmp	r9d, 32
-	jae	.LBB0_208
-# %bb.150:
+	jae	.LBB0_215
+# %bb.157:
 	xor	esi, esi
-.LBB0_213:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_215
-	.p2align	4, 0x90
-.LBB0_214:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, dword ptr [rcx + 4*rsi]
-	add	ebx, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], ebx
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_214
-.LBB0_215:
-	cmp	r10, 3
-	jb	.LBB0_271
-	.p2align	4, 0x90
-.LBB0_216:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_216
-	jmp	.LBB0_271
-.LBB0_3:
+	jmp	.LBB0_220
+.LBB0_10:
 	cmp	sil, 2
-	je	.LBB0_271
-# %bb.4:
+	je	.LBB0_278
+# %bb.11:
 	cmp	sil, 3
 	jne	.LBB0_537
-.LBB0_404:
+# %bb.12:
 	cmp	edi, 6
 	jg	.LBB0_417
-# %bb.405:
+# %bb.13:
 	cmp	edi, 3
-	jle	.LBB0_406
+	jle	.LBB0_14
 # %bb.411:
 	cmp	edi, 4
 	je	.LBB0_450
@@ -110,6 +73,78 @@ arithmetic_avx2:                        # @arithmetic_avx2
 # %bb.416:
 	xor	esi, esi
 	jmp	.LBB0_479
+.LBB0_19:
+	cmp	edi, 6
+	jg	.LBB0_32
+# %bb.20:
+	cmp	edi, 3
+	jle	.LBB0_21
+# %bb.26:
+	cmp	edi, 4
+	je	.LBB0_65
+# %bb.27:
+	cmp	edi, 5
+	je	.LBB0_77
+# %bb.28:
+	cmp	edi, 6
+	jne	.LBB0_537
+# %bb.29:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.30:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_89
+# %bb.31:
+	xor	esi, esi
+	jmp	.LBB0_94
+.LBB0_278:
+	cmp	edi, 6
+	jg	.LBB0_291
+# %bb.279:
+	cmp	edi, 3
+	jle	.LBB0_280
+# %bb.285:
+	cmp	edi, 4
+	je	.LBB0_324
+# %bb.286:
+	cmp	edi, 5
+	je	.LBB0_336
+# %bb.287:
+	cmp	edi, 6
+	jne	.LBB0_537
+# %bb.288:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.289:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_348
+# %bb.290:
+	xor	esi, esi
+	jmp	.LBB0_353
+.LBB0_158:
+	cmp	edi, 8
+	jle	.LBB0_159
+# %bb.164:
+	cmp	edi, 9
+	je	.LBB0_245
+# %bb.165:
+	cmp	edi, 11
+	je	.LBB0_257
+# %bb.166:
+	cmp	edi, 12
+	jne	.LBB0_537
+# %bb.167:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.168:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_269
+# %bb.169:
+	xor	esi, esi
+	jmp	.LBB0_274
 .LBB0_417:
 	cmp	edi, 8
 	jle	.LBB0_418
@@ -132,126 +167,130 @@ arithmetic_avx2:                        # @arithmetic_avx2
 # %bb.428:
 	xor	esi, esi
 	jmp	.LBB0_533
-.LBB0_5:
-	cmp	edi, 6
-	jg	.LBB0_18
-# %bb.6:
-	cmp	edi, 3
-	jle	.LBB0_7
-# %bb.12:
-	cmp	edi, 4
-	je	.LBB0_51
-# %bb.13:
-	cmp	edi, 5
-	je	.LBB0_63
-# %bb.14:
-	cmp	edi, 6
-	jne	.LBB0_138
-# %bb.15:
-	test	r9d, r9d
-	jle	.LBB0_537
-# %bb.16:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_75
-# %bb.17:
-	xor	esi, esi
-	jmp	.LBB0_80
-.LBB0_151:
+.LBB0_32:
 	cmp	edi, 8
-	jle	.LBB0_152
-# %bb.157:
+	jle	.LBB0_33
+# %bb.38:
 	cmp	edi, 9
-	je	.LBB0_238
-# %bb.158:
+	je	.LBB0_119
+# %bb.39:
 	cmp	edi, 11
-	je	.LBB0_250
-# %bb.159:
+	je	.LBB0_131
+# %bb.40:
 	cmp	edi, 12
-	jne	.LBB0_271
-# %bb.160:
+	jne	.LBB0_537
+# %bb.41:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.161:
-	mov	r11d, r9d
+# %bb.42:
+	mov	r10d, r9d
 	cmp	r9d, 16
-	jae	.LBB0_262
-# %bb.162:
+	jae	.LBB0_143
+# %bb.43:
 	xor	esi, esi
-.LBB0_267:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_269
-	.p2align	4, 0x90
-.LBB0_268:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_268
-.LBB0_269:
-	cmp	r10, 3
-	jb	.LBB0_271
-	.p2align	4, 0x90
-.LBB0_270:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_270
-	jmp	.LBB0_271
-.LBB0_18:
+	jmp	.LBB0_148
+.LBB0_291:
 	cmp	edi, 8
-	jle	.LBB0_19
-# %bb.24:
+	jle	.LBB0_292
+# %bb.297:
 	cmp	edi, 9
-	je	.LBB0_105
-# %bb.25:
+	je	.LBB0_378
+# %bb.298:
 	cmp	edi, 11
-	je	.LBB0_117
-# %bb.26:
+	je	.LBB0_390
+# %bb.299:
 	cmp	edi, 12
-	jne	.LBB0_138
-# %bb.27:
+	jne	.LBB0_537
+# %bb.300:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.28:
-	mov	r11d, r9d
+# %bb.301:
+	mov	r10d, r9d
 	cmp	r9d, 16
-	jae	.LBB0_129
-# %bb.29:
+	jae	.LBB0_402
+# %bb.302:
+	xor	esi, esi
+	jmp	.LBB0_407
+.LBB0_5:
+	cmp	edi, 2
+	je	.LBB0_170
+# %bb.6:
+	cmp	edi, 3
+	jne	.LBB0_537
+# %bb.7:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.8:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_182
+# %bb.9:
 	xor	esi, esi
-	jmp	.LBB0_134
-.LBB0_406:
+	jmp	.LBB0_187
+.LBB0_14:
 	cmp	edi, 2
 	je	.LBB0_429
-# %bb.407:
+# %bb.15:
 	cmp	edi, 3
 	jne	.LBB0_537
-# %bb.408:
+# %bb.16:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.409:
+# %bb.17:
 	mov	r10d, r9d
 	cmp	r9d, 128
 	jae	.LBB0_441
-# %bb.410:
+# %bb.18:
 	xor	esi, esi
 	jmp	.LBB0_446
+.LBB0_21:
+	cmp	edi, 2
+	je	.LBB0_44
+# %bb.22:
+	cmp	edi, 3
+	jne	.LBB0_537
+# %bb.23:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.24:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_56
+# %bb.25:
+	xor	esi, esi
+	jmp	.LBB0_61
+.LBB0_280:
+	cmp	edi, 2
+	je	.LBB0_303
+# %bb.281:
+	cmp	edi, 3
+	jne	.LBB0_537
+# %bb.282:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.283:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_315
+# %bb.284:
+	xor	esi, esi
+	jmp	.LBB0_320
+.LBB0_159:
+	cmp	edi, 7
+	je	.LBB0_224
+# %bb.160:
+	cmp	edi, 8
+	jne	.LBB0_537
+# %bb.161:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.162:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_236
+# %bb.163:
+	xor	esi, esi
+	jmp	.LBB0_241
 .LBB0_418:
 	cmp	edi, 7
 	je	.LBB0_483
@@ -268,108 +307,58 @@ arithmetic_avx2:                        # @arithmetic_avx2
 # %bb.422:
 	xor	esi, esi
 	jmp	.LBB0_500
-.LBB0_140:
-	cmp	edi, 2
-	je	.LBB0_163
-# %bb.141:
-	cmp	edi, 3
-	jne	.LBB0_271
-# %bb.142:
+.LBB0_33:
+	cmp	edi, 7
+	je	.LBB0_98
+# %bb.34:
+	cmp	edi, 8
+	jne	.LBB0_537
+# %bb.35:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.143:
-	mov	r11d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_175
-# %bb.144:
+# %bb.36:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_110
+# %bb.37:
 	xor	esi, esi
-.LBB0_180:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_182
-	.p2align	4, 0x90
-.LBB0_181:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, byte ptr [rcx + rsi]
-	add	bl, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], bl
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_181
-.LBB0_182:
-	cmp	r10, 3
-	jb	.LBB0_271
-	.p2align	4, 0x90
-.LBB0_183:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_183
-	jmp	.LBB0_271
-.LBB0_152:
+	jmp	.LBB0_115
+.LBB0_292:
 	cmp	edi, 7
-	je	.LBB0_217
-# %bb.153:
+	je	.LBB0_357
+# %bb.293:
 	cmp	edi, 8
-	jne	.LBB0_271
-# %bb.154:
+	jne	.LBB0_537
+# %bb.294:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.155:
-	mov	r11d, r9d
+# %bb.295:
+	mov	r10d, r9d
 	cmp	r9d, 16
-	jae	.LBB0_229
-# %bb.156:
+	jae	.LBB0_369
+# %bb.296:
 	xor	esi, esi
-.LBB0_234:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_236
-	.p2align	4, 0x90
-.LBB0_235:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, qword ptr [rcx + 8*rsi]
-	add	rbx, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rbx
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_235
-.LBB0_236:
-	cmp	r10, 3
-	jb	.LBB0_271
-	.p2align	4, 0x90
-.LBB0_237:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_237
-	jmp	.LBB0_271
+	jmp	.LBB0_374
+.LBB0_191:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.192:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_194
+# %bb.193:
+	xor	esi, esi
+	jmp	.LBB0_199
+.LBB0_203:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.204:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_206
+# %bb.205:
+	xor	esi, esi
+	jmp	.LBB0_211
 .LBB0_450:
 	test	r9d, r9d
 	jle	.LBB0_537
@@ -390,6 +379,66 @@ arithmetic_avx2:                        # @arithmetic_avx2
 # %bb.464:
 	xor	esi, esi
 	jmp	.LBB0_470
+.LBB0_65:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.66:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_68
+# %bb.67:
+	xor	esi, esi
+	jmp	.LBB0_73
+.LBB0_77:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.78:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_80
+# %bb.79:
+	xor	esi, esi
+	jmp	.LBB0_85
+.LBB0_324:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.325:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_327
+# %bb.326:
+	xor	esi, esi
+	jmp	.LBB0_332
+.LBB0_336:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.337:
+	mov	r10d, r9d
+	cmp	r9d, 64
+	jae	.LBB0_339
+# %bb.338:
+	xor	esi, esi
+	jmp	.LBB0_344
+.LBB0_245:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.246:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_248
+# %bb.247:
+	xor	esi, esi
+	jmp	.LBB0_253
+.LBB0_257:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.258:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_260
+# %bb.259:
+	xor	esi, esi
+	jmp	.LBB0_265
 .LBB0_504:
 	test	r9d, r9d
 	jle	.LBB0_537
@@ -410,312 +459,185 @@ arithmetic_avx2:                        # @arithmetic_avx2
 # %bb.518:
 	xor	esi, esi
 	jmp	.LBB0_524
-.LBB0_429:
+.LBB0_119:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.430:
+# %bb.120:
 	mov	r10d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_432
-# %bb.431:
+	cmp	r9d, 16
+	jae	.LBB0_122
+# %bb.121:
 	xor	esi, esi
-	jmp	.LBB0_437
-.LBB0_483:
+	jmp	.LBB0_127
+.LBB0_131:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.484:
+# %bb.132:
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jae	.LBB0_486
-# %bb.485:
+	jae	.LBB0_134
+# %bb.133:
 	xor	esi, esi
-	jmp	.LBB0_491
-.LBB0_7:
-	cmp	edi, 2
-	je	.LBB0_30
-# %bb.8:
-	cmp	edi, 3
-	jne	.LBB0_138
-# %bb.9:
+	jmp	.LBB0_139
+.LBB0_378:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.379:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_381
+# %bb.380:
+	xor	esi, esi
+	jmp	.LBB0_386
+.LBB0_390:
+	test	r9d, r9d
+	jle	.LBB0_537
+# %bb.391:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_393
+# %bb.392:
+	xor	esi, esi
+	jmp	.LBB0_398
+.LBB0_170:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.10:
-	mov	r11d, r9d
+# %bb.171:
+	mov	r10d, r9d
 	cmp	r9d, 128
-	jae	.LBB0_42
-# %bb.11:
+	jae	.LBB0_173
+# %bb.172:
 	xor	esi, esi
-	jmp	.LBB0_47
-.LBB0_19:
-	cmp	edi, 7
-	je	.LBB0_84
-# %bb.20:
-	cmp	edi, 8
-	jne	.LBB0_138
-# %bb.21:
+	jmp	.LBB0_178
+.LBB0_429:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.22:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_96
-# %bb.23:
+# %bb.430:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_432
+# %bb.431:
 	xor	esi, esi
-	jmp	.LBB0_101
-.LBB0_184:
+	jmp	.LBB0_437
+.LBB0_44:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.185:
-	mov	r11d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_187
-# %bb.186:
+# %bb.45:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_47
+# %bb.46:
 	xor	esi, esi
-.LBB0_192:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_194
-	.p2align	4, 0x90
-.LBB0_193:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rcx + 2*rsi]
-	add	bx, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], bx
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_193
-.LBB0_194:
-	cmp	r10, 3
-	jb	.LBB0_271
-	.p2align	4, 0x90
-.LBB0_195:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_195
-	jmp	.LBB0_271
-.LBB0_196:
+	jmp	.LBB0_52
+.LBB0_303:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.197:
-	mov	r11d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_199
-# %bb.198:
+# %bb.304:
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jae	.LBB0_306
+# %bb.305:
 	xor	esi, esi
-.LBB0_204:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_206
-	.p2align	4, 0x90
-.LBB0_205:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rcx + 2*rsi]
-	add	bx, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], bx
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_205
-.LBB0_206:
-	cmp	r10, 3
-	jb	.LBB0_271
-	.p2align	4, 0x90
-.LBB0_207:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_207
-	jmp	.LBB0_271
-.LBB0_238:
+	jmp	.LBB0_311
+.LBB0_224:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.239:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_241
-# %bb.240:
+# %bb.225:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_227
+# %bb.226:
 	xor	esi, esi
-.LBB0_246:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_248
-	.p2align	4, 0x90
-.LBB0_247:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, qword ptr [rcx + 8*rsi]
-	add	rbx, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rbx
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_247
-.LBB0_248:
-	cmp	r10, 3
-	jb	.LBB0_271
-	.p2align	4, 0x90
-.LBB0_249:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_249
-	jmp	.LBB0_271
-.LBB0_250:
+	jmp	.LBB0_232
+.LBB0_483:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.251:
-	mov	r11d, r9d
+# %bb.484:
+	mov	r10d, r9d
 	cmp	r9d, 32
-	jae	.LBB0_253
-# %bb.252:
+	jae	.LBB0_486
+# %bb.485:
 	xor	esi, esi
-.LBB0_258:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_260
-	.p2align	4, 0x90
-.LBB0_259:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_259
-.LBB0_260:
-	cmp	r10, 3
-	jb	.LBB0_271
-	.p2align	4, 0x90
-.LBB0_261:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_261
-	jmp	.LBB0_271
-.LBB0_163:
+	jmp	.LBB0_491
+.LBB0_98:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.164:
-	mov	r11d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_166
-# %bb.165:
+# %bb.99:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_101
+# %bb.100:
 	xor	esi, esi
-.LBB0_171:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_173
-	.p2align	4, 0x90
-.LBB0_172:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, byte ptr [rcx + rsi]
-	add	bl, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], bl
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_172
-.LBB0_173:
-	cmp	r10, 3
-	jb	.LBB0_271
-	.p2align	4, 0x90
-.LBB0_174:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_174
-	jmp	.LBB0_271
-.LBB0_217:
+	jmp	.LBB0_106
+.LBB0_357:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.218:
-	mov	r11d, r9d
+# %bb.358:
+	mov	r10d, r9d
 	cmp	r9d, 32
-	jae	.LBB0_220
-# %bb.219:
+	jae	.LBB0_360
+# %bb.359:
 	xor	esi, esi
-.LBB0_225:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_227
-	.p2align	4, 0x90
-.LBB0_226:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, dword ptr [rcx + 4*rsi]
-	add	ebx, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], ebx
+	jmp	.LBB0_365
+.LBB0_215:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_220
+# %bb.216:
+	and	al, dil
+	jne	.LBB0_220
+# %bb.217:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_218:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_218
+# %bb.219:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_220:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_222
+.LBB0_221:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rsi]
+	add	edi, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_226
-.LBB0_227:
-	cmp	r10, 3
-	jb	.LBB0_271
-	.p2align	4, 0x90
-.LBB0_228:                              # =>This Inner Loop Header: Depth=1
+	jne	.LBB0_221
+.LBB0_222:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_223:                              # =>This Inner Loop Header: Depth=1
 	mov	eax, dword ptr [rcx + 4*rsi]
 	add	eax, dword ptr [rdx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
@@ -729,69 +651,9 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	add	eax, dword ptr [rdx + 4*rsi + 12]
 	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_228
-	jmp	.LBB0_271
-.LBB0_51:
-	test	r9d, r9d
-	jle	.LBB0_537
-# %bb.52:
-	mov	r11d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_54
-# %bb.53:
-	xor	esi, esi
-	jmp	.LBB0_59
-.LBB0_63:
-	test	r9d, r9d
-	jle	.LBB0_537
-# %bb.64:
-	mov	r11d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_66
-# %bb.65:
-	xor	esi, esi
-	jmp	.LBB0_71
-.LBB0_105:
-	test	r9d, r9d
-	jle	.LBB0_537
-# %bb.106:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_108
-# %bb.107:
-	xor	esi, esi
-	jmp	.LBB0_113
-.LBB0_117:
-	test	r9d, r9d
-	jle	.LBB0_537
-# %bb.118:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_120
-# %bb.119:
-	xor	esi, esi
-	jmp	.LBB0_125
-.LBB0_30:
-	test	r9d, r9d
-	jle	.LBB0_537
-# %bb.31:
-	mov	r11d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_33
-# %bb.32:
-	xor	esi, esi
-	jmp	.LBB0_38
-.LBB0_84:
-	test	r9d, r9d
-	jle	.LBB0_537
-# %bb.85:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_87
-# %bb.86:
-	xor	esi, esi
-	jmp	.LBB0_92
+	cmp	r10, rsi
+	jne	.LBB0_223
+	jmp	.LBB0_537
 .LBB0_474:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
@@ -799,13 +661,13 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	r9b
 	lea	rax, [rcx + 4*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
+	test	r9b, r11b
 	jne	.LBB0_479
 # %bb.475:
 	and	al, dil
@@ -814,7 +676,6 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	mov	esi, r10d
 	and	esi, -32
 	xor	edi, edi
-	.p2align	4, 0x90
 .LBB0_477:                              # =>This Inner Loop Header: Depth=1
 	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
 	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
@@ -835,24 +696,22 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	cmp	rsi, r10
 	je	.LBB0_537
 .LBB0_479:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rax, r10
 	and	rax, 3
 	je	.LBB0_481
-	.p2align	4, 0x90
 .LBB0_480:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, dword ptr [rdx + 4*rsi]
-	sub	ebx, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], ebx
+	mov	edi, dword ptr [rdx + 4*rsi]
+	sub	edi, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
 	add	rsi, 1
 	add	rax, -1
 	jne	.LBB0_480
 .LBB0_481:
-	cmp	rdi, 3
+	cmp	r9, 3
 	jb	.LBB0_537
-	.p2align	4, 0x90
 .LBB0_482:                              # =>This Inner Loop Header: Depth=1
 	mov	eax, dword ptr [rdx + 4*rsi]
 	sub	eax, dword ptr [rcx + 4*rsi]
@@ -870,6 +729,231 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	cmp	r10, rsi
 	jne	.LBB0_482
 	jmp	.LBB0_537
+.LBB0_89:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_94
+# %bb.90:
+	and	al, dil
+	jne	.LBB0_94
+# %bb.91:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_92:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_92
+# %bb.93:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_94:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_96
+.LBB0_95:                               # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rsi]
+	add	edi, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_95
+.LBB0_96:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_97:                               # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_97
+	jmp	.LBB0_537
+.LBB0_348:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_353
+# %bb.349:
+	and	al, dil
+	jne	.LBB0_353
+# %bb.350:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_351:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_351
+# %bb.352:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_353:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_355
+.LBB0_354:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rdx + 4*rsi]
+	sub	edi, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_354
+.LBB0_355:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_356:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_356
+	jmp	.LBB0_537
+.LBB0_269:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_274
+# %bb.270:
+	and	al, dil
+	jne	.LBB0_274
+# %bb.271:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_272:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vaddpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
+	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vaddpd	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vaddpd	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_272
+# %bb.273:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_274:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_276
+.LBB0_275:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_275
+.LBB0_276:
+	cmp	rdi, 3
+	jb	.LBB0_537
+.LBB0_277:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_277
+	jmp	.LBB0_537
 .LBB0_528:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
@@ -877,13 +961,13 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	r9b
 	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
+	test	r9b, r11b
 	jne	.LBB0_533
 # %bb.529:
 	and	al, dil
@@ -892,7 +976,6 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	mov	esi, r10d
 	and	esi, -16
 	xor	edi, edi
-	.p2align	4, 0x90
 .LBB0_531:                              # =>This Inner Loop Header: Depth=1
 	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
 	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
@@ -919,7 +1002,6 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	mov	rax, r10
 	and	rax, 3
 	je	.LBB0_535
-	.p2align	4, 0x90
 .LBB0_534:                              # =>This Inner Loop Header: Depth=1
 	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
 	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
@@ -930,7 +1012,6 @@ arithmetic_avx2:                        # @arithmetic_avx2
 .LBB0_535:
 	cmp	rdi, 3
 	jb	.LBB0_537
-	.p2align	4, 0x90
 .LBB0_536:                              # =>This Inner Loop Header: Depth=1
 	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
 	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
@@ -948,498 +1029,404 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	cmp	r10, rsi
 	jne	.LBB0_536
 	jmp	.LBB0_537
-.LBB0_441:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
+.LBB0_143:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
 	seta	r9b
-	lea	rax, [rcx + r10]
+	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
-	jne	.LBB0_446
-# %bb.442:
+	test	r9b, r11b
+	jne	.LBB0_148
+# %bb.144:
 	and	al, dil
-	jne	.LBB0_446
-# %bb.443:
+	jne	.LBB0_148
+# %bb.145:
 	mov	esi, r10d
-	and	esi, -128
+	and	esi, -16
 	xor	edi, edi
-	.p2align	4, 0x90
-.LBB0_444:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
-	vmovdqu	ymmword ptr [r8 + rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
-	sub	rdi, -128
+.LBB0_146:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vaddpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
+	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vaddpd	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vaddpd	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
 	cmp	rsi, rdi
-	jne	.LBB0_444
-# %bb.445:
+	jne	.LBB0_146
+# %bb.147:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_446:
+.LBB0_148:
 	mov	rdi, rsi
 	not	rdi
 	add	rdi, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_448
-	.p2align	4, 0x90
-.LBB0_447:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, byte ptr [rdx + rsi]
-	sub	bl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], bl
+	je	.LBB0_150
+.LBB0_149:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_447
-.LBB0_448:
+	jne	.LBB0_149
+.LBB0_150:
 	cmp	rdi, 3
 	jb	.LBB0_537
-	.p2align	4, 0x90
-.LBB0_449:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
+.LBB0_151:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_449
+	jne	.LBB0_151
 	jmp	.LBB0_537
-.LBB0_495:
+.LBB0_402:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
 	seta	r9b
 	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
-	jne	.LBB0_500
-# %bb.496:
+	test	r9b, r11b
+	jne	.LBB0_407
+# %bb.403:
 	and	al, dil
-	jne	.LBB0_500
-# %bb.497:
+	jne	.LBB0_407
+# %bb.404:
 	mov	esi, r10d
 	and	esi, -16
 	xor	edi, edi
-	.p2align	4, 0x90
-.LBB0_498:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+.LBB0_405:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vsubpd	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
+	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vsubpd	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vsubpd	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
 	add	rdi, 16
 	cmp	rsi, rdi
-	jne	.LBB0_498
-# %bb.499:
+	jne	.LBB0_405
+# %bb.406:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_500:
+.LBB0_407:
 	mov	rdi, rsi
 	not	rdi
 	add	rdi, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_502
-	.p2align	4, 0x90
-.LBB0_501:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, qword ptr [rdx + 8*rsi]
-	sub	rbx, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rbx
+	je	.LBB0_409
+.LBB0_408:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_501
-.LBB0_502:
+	jne	.LBB0_408
+.LBB0_409:
 	cmp	rdi, 3
 	jb	.LBB0_537
-	.p2align	4, 0x90
-.LBB0_503:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
+.LBB0_410:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
+	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 8]
+	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 16]
+	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 24]
+	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_503
+	jne	.LBB0_410
 	jmp	.LBB0_537
-.LBB0_453:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
+.LBB0_182:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
 	cmp	rax, r8
 	seta	r9b
-	lea	rax, [rcx + 2*r10]
+	lea	rax, [rcx + r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
-	jne	.LBB0_458
-# %bb.454:
+	test	r9b, r11b
+	jne	.LBB0_187
+# %bb.183:
 	and	al, dil
-	jne	.LBB0_458
-# %bb.455:
+	jne	.LBB0_187
+# %bb.184:
 	mov	esi, r10d
-	and	esi, -64
+	and	esi, -128
 	xor	edi, edi
-	.p2align	4, 0x90
-.LBB0_456:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
+.LBB0_185:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
+	sub	rdi, -128
 	cmp	rsi, rdi
-	jne	.LBB0_456
-# %bb.457:
+	jne	.LBB0_185
+# %bb.186:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_458:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_460
-	.p2align	4, 0x90
-.LBB0_459:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rdx + 2*rsi]
-	sub	bx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], bx
+.LBB0_187:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_189
+.LBB0_188:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_459
-.LBB0_460:
-	cmp	rdi, 3
+	add	rdi, -1
+	jne	.LBB0_188
+.LBB0_189:
+	cmp	r9, 3
 	jb	.LBB0_537
-	.p2align	4, 0x90
-.LBB0_461:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
+.LBB0_190:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_461
+	jne	.LBB0_190
 	jmp	.LBB0_537
-.LBB0_465:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
+.LBB0_441:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
 	cmp	rax, r8
 	seta	r9b
-	lea	rax, [rcx + 2*r10]
+	lea	rax, [rcx + r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
-	jne	.LBB0_470
-# %bb.466:
+	test	r9b, r11b
+	jne	.LBB0_446
+# %bb.442:
 	and	al, dil
-	jne	.LBB0_470
-# %bb.467:
+	jne	.LBB0_446
+# %bb.443:
 	mov	esi, r10d
-	and	esi, -64
+	and	esi, -128
 	xor	edi, edi
-	.p2align	4, 0x90
-.LBB0_468:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
-	add	rdi, 64
-	cmp	rsi, rdi
-	jne	.LBB0_468
-# %bb.469:
-	cmp	rsi, r10
-	je	.LBB0_537
-.LBB0_470:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_472
-	.p2align	4, 0x90
-.LBB0_471:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rdx + 2*rsi]
-	sub	bx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], bx
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_471
-.LBB0_472:
-	cmp	rdi, 3
-	jb	.LBB0_537
-	.p2align	4, 0x90
-.LBB0_473:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_473
-	jmp	.LBB0_537
-.LBB0_507:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, bl
-	jne	.LBB0_512
-# %bb.508:
-	and	al, dil
-	jne	.LBB0_512
-# %bb.509:
-	mov	esi, r10d
-	and	esi, -16
-	xor	edi, edi
-	.p2align	4, 0x90
-.LBB0_510:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
-	add	rdi, 16
+.LBB0_444:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
+	sub	rdi, -128
 	cmp	rsi, rdi
-	jne	.LBB0_510
-# %bb.511:
+	jne	.LBB0_444
+# %bb.445:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_512:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_514
-	.p2align	4, 0x90
-.LBB0_513:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, qword ptr [rdx + 8*rsi]
-	sub	rbx, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rbx
+.LBB0_446:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_448
+.LBB0_447:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_513
-.LBB0_514:
-	cmp	rdi, 3
+	add	rdi, -1
+	jne	.LBB0_447
+.LBB0_448:
+	cmp	r9, 3
 	jb	.LBB0_537
-	.p2align	4, 0x90
-.LBB0_515:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
+.LBB0_449:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_515
+	jne	.LBB0_449
 	jmp	.LBB0_537
-.LBB0_519:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
+.LBB0_56:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
 	cmp	rax, r8
 	seta	r9b
-	lea	rax, [rcx + 4*r10]
+	lea	rax, [rcx + r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
-	jne	.LBB0_524
-# %bb.520:
+	test	r9b, r11b
+	jne	.LBB0_61
+# %bb.57:
 	and	al, dil
-	jne	.LBB0_524
-# %bb.521:
+	jne	.LBB0_61
+# %bb.58:
 	mov	esi, r10d
-	and	esi, -32
+	and	esi, -128
 	xor	edi, edi
-	.p2align	4, 0x90
-.LBB0_522:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vsubps	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
-	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vsubps	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vsubps	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
+.LBB0_59:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
+	sub	rdi, -128
 	cmp	rsi, rdi
-	jne	.LBB0_522
-# %bb.523:
+	jne	.LBB0_59
+# %bb.60:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_524:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_526
-	.p2align	4, 0x90
-.LBB0_525:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
+.LBB0_61:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_63
+.LBB0_62:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_525
-.LBB0_526:
-	cmp	rdi, 3
+	add	rdi, -1
+	jne	.LBB0_62
+.LBB0_63:
+	cmp	r9, 3
 	jb	.LBB0_537
-	.p2align	4, 0x90
-.LBB0_527:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
+.LBB0_64:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_527
+	jne	.LBB0_64
 	jmp	.LBB0_537
-.LBB0_432:
+.LBB0_315:
 	lea	rsi, [r8 + r10]
 	lea	rax, [rdx + r10]
 	cmp	rax, r8
 	seta	r9b
 	lea	rax, [rcx + r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
-	jne	.LBB0_437
-# %bb.433:
+	test	r9b, r11b
+	jne	.LBB0_320
+# %bb.316:
 	and	al, dil
-	jne	.LBB0_437
-# %bb.434:
+	jne	.LBB0_320
+# %bb.317:
 	mov	esi, r10d
 	and	esi, -128
 	xor	edi, edi
-	.p2align	4, 0x90
-.LBB0_435:                              # =>This Inner Loop Header: Depth=1
+.LBB0_318:                              # =>This Inner Loop Header: Depth=1
 	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
 	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
 	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
@@ -1454,34 +1441,32 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
 	sub	rdi, -128
 	cmp	rsi, rdi
-	jne	.LBB0_435
-# %bb.436:
+	jne	.LBB0_318
+# %bb.319:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_437:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_439
-	.p2align	4, 0x90
-.LBB0_438:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, byte ptr [rdx + rsi]
-	sub	bl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], bl
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_438
-.LBB0_439:
-	cmp	rdi, 3
-	jb	.LBB0_537
-	.p2align	4, 0x90
-.LBB0_440:                              # =>This Inner Loop Header: Depth=1
+.LBB0_320:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_322
+.LBB0_321:                              # =>This Inner Loop Header: Depth=1
 	movzx	eax, byte ptr [rdx + rsi]
 	sub	al, byte ptr [rcx + rsi]
 	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_321
+.LBB0_322:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_323:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
 	sub	al, byte ptr [rcx + rsi + 1]
 	mov	byte ptr [r8 + rsi + 1], al
 	movzx	eax, byte ptr [rdx + rsi + 2]
@@ -1492,1097 +1477,892 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_440
+	jne	.LBB0_323
 	jmp	.LBB0_537
-.LBB0_486:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
+.LBB0_236:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
 	seta	r9b
-	lea	rax, [rcx + 4*r10]
+	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
-	jne	.LBB0_491
-# %bb.487:
+	test	r9b, r11b
+	jne	.LBB0_241
+# %bb.237:
 	and	al, dil
-	jne	.LBB0_491
-# %bb.488:
+	jne	.LBB0_241
+# %bb.238:
 	mov	esi, r10d
-	and	esi, -32
+	and	esi, -16
 	xor	edi, edi
-	.p2align	4, 0x90
-.LBB0_489:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
-	add	rdi, 32
+.LBB0_239:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
 	cmp	rsi, rdi
-	jne	.LBB0_489
-# %bb.490:
+	jne	.LBB0_239
+# %bb.240:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_491:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
+.LBB0_241:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_493
-	.p2align	4, 0x90
-.LBB0_492:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, dword ptr [rdx + 4*rsi]
-	sub	ebx, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], ebx
+	je	.LBB0_243
+.LBB0_242:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rsi]
+	add	rdi, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_492
-.LBB0_493:
-	cmp	rdi, 3
+	jne	.LBB0_242
+.LBB0_243:
+	cmp	r9, 3
 	jb	.LBB0_537
-	.p2align	4, 0x90
-.LBB0_494:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+.LBB0_244:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_494
+	jne	.LBB0_244
 	jmp	.LBB0_537
-.LBB0_208:
-	lea	rsi, [r8 + 4*r11]
-	lea	rax, [rdx + 4*r11]
+.LBB0_495:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 4*r11]
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_213
-# %bb.209:
-	and	al, r10b
-	jne	.LBB0_213
-# %bb.210:
-	mov	esi, r11d
-	and	esi, -32
-	xor	eax, eax
-.LBB0_211:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rax]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rax + 96]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rax]
-	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rax + 32]
-	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rax + 64]
-	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm3
-	add	rax, 32
-	cmp	rsi, rax
-	jne	.LBB0_211
-# %bb.212:
-	cmp	rsi, r11
-	jne	.LBB0_213
-	jmp	.LBB0_271
-.LBB0_262:
-	lea	rsi, [r8 + 8*r11]
-	lea	rax, [rdx + 8*r11]
+	test	r9b, r11b
+	jne	.LBB0_500
+# %bb.496:
+	and	al, dil
+	jne	.LBB0_500
+# %bb.497:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_498:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_498
+# %bb.499:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_500:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_502
+.LBB0_501:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rdx + 8*rsi]
+	sub	rdi, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_501
+.LBB0_502:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_503:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_503
+	jmp	.LBB0_537
+.LBB0_110:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 8*r11]
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_267
-# %bb.263:
-	and	al, r10b
-	jne	.LBB0_267
-# %bb.264:
-	mov	esi, r11d
+	test	r9b, r11b
+	jne	.LBB0_115
+# %bb.111:
+	and	al, dil
+	jne	.LBB0_115
+# %bb.112:
+	mov	esi, r10d
 	and	esi, -16
-	xor	eax, eax
-.LBB0_265:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rcx + 8*rax]
-	vmovupd	ymm1, ymmword ptr [rcx + 8*rax + 32]
-	vmovupd	ymm2, ymmword ptr [rcx + 8*rax + 64]
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rax + 96]
-	vaddpd	ymm0, ymm0, ymmword ptr [rdx + 8*rax]
-	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rax + 32]
-	vaddpd	ymm2, ymm2, ymmword ptr [rdx + 8*rax + 64]
-	vaddpd	ymm3, ymm3, ymmword ptr [rdx + 8*rax + 96]
-	vmovupd	ymmword ptr [r8 + 8*rax], ymm0
-	vmovupd	ymmword ptr [r8 + 8*rax + 32], ymm1
-	vmovupd	ymmword ptr [r8 + 8*rax + 64], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rax + 96], ymm3
-	add	rax, 16
-	cmp	rsi, rax
-	jne	.LBB0_265
-# %bb.266:
-	cmp	rsi, r11
-	jne	.LBB0_267
-	jmp	.LBB0_271
-.LBB0_175:
-	lea	rsi, [r8 + r11]
-	lea	rax, [rdx + r11]
+	xor	edi, edi
+.LBB0_113:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_113
+# %bb.114:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_115:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_117
+.LBB0_116:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rsi]
+	add	rdi, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_116
+.LBB0_117:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_118:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_118
+	jmp	.LBB0_537
+.LBB0_369:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + r11]
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_180
-# %bb.176:
-	and	al, r10b
-	jne	.LBB0_180
-# %bb.177:
-	mov	esi, r11d
-	and	esi, -128
-	xor	eax, eax
-.LBB0_178:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + rax]
-	vmovdqu	ymm1, ymmword ptr [rcx + rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + rax + 96]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rax]
-	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rax + 32]
-	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rax + 64]
-	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rax + 96]
-	vmovdqu	ymmword ptr [r8 + rax], ymm0
-	vmovdqu	ymmword ptr [r8 + rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rax + 96], ymm3
-	sub	rax, -128
-	cmp	rsi, rax
-	jne	.LBB0_178
-# %bb.179:
-	cmp	rsi, r11
-	jne	.LBB0_180
-	jmp	.LBB0_271
-.LBB0_229:
-	lea	rsi, [r8 + 8*r11]
-	lea	rax, [rdx + 8*r11]
+	test	r9b, r11b
+	jne	.LBB0_374
+# %bb.370:
+	and	al, dil
+	jne	.LBB0_374
+# %bb.371:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_372:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_372
+# %bb.373:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_374:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_376
+.LBB0_375:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rdx + 8*rsi]
+	sub	rdi, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_375
+.LBB0_376:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_377:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_377
+	jmp	.LBB0_537
+.LBB0_194:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 8*r11]
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
-	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_234
-# %bb.230:
-	and	al, r10b
-	jne	.LBB0_234
-# %bb.231:
-	mov	esi, r11d
-	and	esi, -16
-	xor	eax, eax
-.LBB0_232:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 8*rax]
-	vmovdqu	ymm1, ymmword ptr [rcx + 8*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rax + 96]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rax]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rax + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rax + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm3
-	add	rax, 16
-	cmp	rsi, rax
-	jne	.LBB0_232
-# %bb.233:
-	cmp	rsi, r11
-	jne	.LBB0_234
-	jmp	.LBB0_271
-.LBB0_187:
-	lea	rsi, [r8 + 2*r11]
-	lea	rax, [rdx + 2*r11]
-	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 2*r11]
-	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_192
-# %bb.188:
-	and	al, r10b
-	jne	.LBB0_192
-# %bb.189:
-	mov	esi, r11d
+	test	r9b, r11b
+	jne	.LBB0_199
+# %bb.195:
+	and	al, dil
+	jne	.LBB0_199
+# %bb.196:
+	mov	esi, r10d
 	and	esi, -64
-	xor	eax, eax
-.LBB0_190:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rax]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rax + 96]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rax]
-	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rax + 64]
-	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rax + 96], ymm3
-	add	rax, 64
-	cmp	rsi, rax
-	jne	.LBB0_190
-# %bb.191:
-	cmp	rsi, r11
-	jne	.LBB0_192
-	jmp	.LBB0_271
+	xor	edi, edi
+.LBB0_197:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_197
+# %bb.198:
+	cmp	rsi, r10
+	je	.LBB0_537
 .LBB0_199:
-	lea	rsi, [r8 + 2*r11]
-	lea	rax, [rdx + 2*r11]
-	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 2*r11]
-	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	r10b
-	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_204
-# %bb.200:
-	and	al, r10b
-	jne	.LBB0_204
-# %bb.201:
-	mov	esi, r11d
-	and	esi, -64
-	xor	eax, eax
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_201
+.LBB0_200:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_200
+.LBB0_201:
+	cmp	r9, 3
+	jb	.LBB0_537
 .LBB0_202:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rax]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rax + 96]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rax]
-	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rax + 64]
-	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rax + 96], ymm3
-	add	rax, 64
-	cmp	rsi, rax
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
 	jne	.LBB0_202
-# %bb.203:
-	cmp	rsi, r11
-	jne	.LBB0_204
-	jmp	.LBB0_271
-.LBB0_241:
-	lea	rsi, [r8 + 8*r11]
-	lea	rax, [rdx + 8*r11]
+	jmp	.LBB0_537
+.LBB0_206:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 8*r11]
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_246
-# %bb.242:
-	and	al, r10b
-	jne	.LBB0_246
-# %bb.243:
-	mov	esi, r11d
-	and	esi, -16
-	xor	eax, eax
-.LBB0_244:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 8*rax]
-	vmovdqu	ymm1, ymmword ptr [rcx + 8*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rax + 96]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rax]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rax + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rax + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm3
-	add	rax, 16
-	cmp	rsi, rax
-	jne	.LBB0_244
-# %bb.245:
-	cmp	rsi, r11
-	jne	.LBB0_246
-	jmp	.LBB0_271
-.LBB0_253:
-	lea	rsi, [r8 + 4*r11]
-	lea	rax, [rdx + 4*r11]
+	test	r9b, r11b
+	jne	.LBB0_211
+# %bb.207:
+	and	al, dil
+	jne	.LBB0_211
+# %bb.208:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_209:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_209
+# %bb.210:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_211:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_213
+.LBB0_212:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_212
+.LBB0_213:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_214:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_214
+	jmp	.LBB0_537
+.LBB0_453:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 4*r11]
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_258
-# %bb.254:
-	and	al, r10b
-	jne	.LBB0_258
-# %bb.255:
-	mov	esi, r11d
-	and	esi, -32
-	xor	eax, eax
-.LBB0_256:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rcx + 4*rax]
-	vmovups	ymm1, ymmword ptr [rcx + 4*rax + 32]
-	vmovups	ymm2, ymmword ptr [rcx + 4*rax + 64]
-	vmovups	ymm3, ymmword ptr [rcx + 4*rax + 96]
-	vaddps	ymm0, ymm0, ymmword ptr [rdx + 4*rax]
-	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rax + 32]
-	vaddps	ymm2, ymm2, ymmword ptr [rdx + 4*rax + 64]
-	vaddps	ymm3, ymm3, ymmword ptr [rdx + 4*rax + 96]
-	vmovups	ymmword ptr [r8 + 4*rax], ymm0
-	vmovups	ymmword ptr [r8 + 4*rax + 32], ymm1
-	vmovups	ymmword ptr [r8 + 4*rax + 64], ymm2
-	vmovups	ymmword ptr [r8 + 4*rax + 96], ymm3
-	add	rax, 32
-	cmp	rsi, rax
-	jne	.LBB0_256
-# %bb.257:
-	cmp	rsi, r11
-	jne	.LBB0_258
-	jmp	.LBB0_271
-.LBB0_166:
-	lea	rsi, [r8 + r11]
-	lea	rax, [rdx + r11]
+	test	r9b, r11b
+	jne	.LBB0_458
+# %bb.454:
+	and	al, dil
+	jne	.LBB0_458
+# %bb.455:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_456:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_456
+# %bb.457:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_458:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_460
+.LBB0_459:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	di, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_459
+.LBB0_460:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_461:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_461
+	jmp	.LBB0_537
+.LBB0_465:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + r11]
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_171
-# %bb.167:
-	and	al, r10b
-	jne	.LBB0_171
-# %bb.168:
-	mov	esi, r11d
-	and	esi, -128
-	xor	eax, eax
-.LBB0_169:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + rax]
-	vmovdqu	ymm1, ymmword ptr [rcx + rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + rax + 96]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rax]
-	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rax + 32]
-	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rax + 64]
-	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rax + 96]
-	vmovdqu	ymmword ptr [r8 + rax], ymm0
-	vmovdqu	ymmword ptr [r8 + rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rax + 96], ymm3
-	sub	rax, -128
-	cmp	rsi, rax
-	jne	.LBB0_169
-# %bb.170:
-	cmp	rsi, r11
-	jne	.LBB0_171
-	jmp	.LBB0_271
-.LBB0_220:
-	lea	rsi, [r8 + 4*r11]
-	lea	rax, [rdx + 4*r11]
+	test	r9b, r11b
+	jne	.LBB0_470
+# %bb.466:
+	and	al, dil
+	jne	.LBB0_470
+# %bb.467:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_468:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_468
+# %bb.469:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_470:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_472
+.LBB0_471:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	di, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_471
+.LBB0_472:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_473:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_473
+	jmp	.LBB0_537
+.LBB0_68:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 4*r11]
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_225
-# %bb.221:
-	and	al, r10b
-	jne	.LBB0_225
-# %bb.222:
-	mov	esi, r11d
-	and	esi, -32
-	xor	eax, eax
-.LBB0_223:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rax]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rax + 96]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rax]
-	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rax + 32]
-	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rax + 64]
-	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm3
-	add	rax, 32
-	cmp	rsi, rax
-	jne	.LBB0_223
-# %bb.224:
-	cmp	rsi, r11
-	jne	.LBB0_225
-.LBB0_271:
-	cmp	edi, 6
-	jg	.LBB0_284
-# %bb.272:
-	cmp	edi, 3
-	jle	.LBB0_273
-# %bb.278:
-	cmp	edi, 4
-	je	.LBB0_317
-# %bb.279:
-	cmp	edi, 5
-	je	.LBB0_329
-# %bb.280:
-	cmp	edi, 6
-	jne	.LBB0_404
-# %bb.281:
-	test	r9d, r9d
-	jle	.LBB0_537
-# %bb.282:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_341
-# %bb.283:
-	xor	esi, esi
-	jmp	.LBB0_346
-.LBB0_284:
-	cmp	edi, 8
-	jle	.LBB0_285
-# %bb.290:
-	cmp	edi, 9
-	je	.LBB0_371
-# %bb.291:
-	cmp	edi, 11
-	je	.LBB0_383
-# %bb.292:
-	cmp	edi, 12
-	jne	.LBB0_404
-# %bb.293:
-	test	r9d, r9d
-	jle	.LBB0_537
-# %bb.294:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_395
-# %bb.295:
-	xor	esi, esi
-	jmp	.LBB0_400
-.LBB0_273:
-	cmp	edi, 2
-	je	.LBB0_296
-# %bb.274:
-	cmp	edi, 3
-	jne	.LBB0_404
-# %bb.275:
-	test	r9d, r9d
-	jle	.LBB0_537
-# %bb.276:
-	mov	r11d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_308
-# %bb.277:
-	xor	esi, esi
-	jmp	.LBB0_313
-.LBB0_285:
-	cmp	edi, 7
-	je	.LBB0_350
-# %bb.286:
-	cmp	edi, 8
-	jne	.LBB0_404
-# %bb.287:
-	test	r9d, r9d
-	jle	.LBB0_537
-# %bb.288:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_362
-# %bb.289:
-	xor	esi, esi
-	jmp	.LBB0_367
-.LBB0_317:
-	test	r9d, r9d
-	jle	.LBB0_537
-# %bb.318:
-	mov	r11d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_320
-# %bb.319:
-	xor	esi, esi
-	jmp	.LBB0_325
-.LBB0_329:
-	test	r9d, r9d
-	jle	.LBB0_537
-# %bb.330:
-	mov	r11d, r9d
-	cmp	r9d, 64
-	jae	.LBB0_332
-# %bb.331:
-	xor	esi, esi
-	jmp	.LBB0_337
-.LBB0_371:
-	test	r9d, r9d
-	jle	.LBB0_537
-# %bb.372:
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_374
-# %bb.373:
-	xor	esi, esi
-	jmp	.LBB0_379
-.LBB0_383:
-	test	r9d, r9d
-	jle	.LBB0_537
-# %bb.384:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_386
-# %bb.385:
-	xor	esi, esi
-	jmp	.LBB0_391
-.LBB0_296:
-	test	r9d, r9d
-	jle	.LBB0_537
-# %bb.297:
-	mov	r11d, r9d
-	cmp	r9d, 128
-	jae	.LBB0_299
-# %bb.298:
-	xor	esi, esi
-	jmp	.LBB0_304
-.LBB0_350:
-	test	r9d, r9d
-	jle	.LBB0_537
-# %bb.351:
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_353
-# %bb.352:
-	xor	esi, esi
-	jmp	.LBB0_358
-.LBB0_537:
-	lea	rsp, [rbp - 16]
-	pop	rbx
-	pop	r14
-	pop	rbp
-	vzeroupper
-	ret
-.LBB0_341:
-	lea	rsi, [r8 + 4*r11]
-	lea	rax, [rdx + 4*r11]
+	test	r9b, r11b
+	jne	.LBB0_73
+# %bb.69:
+	and	al, dil
+	jne	.LBB0_73
+# %bb.70:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_71:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_71
+# %bb.72:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_73:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_75
+.LBB0_74:                               # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_74
+.LBB0_75:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_76:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_76
+	jmp	.LBB0_537
+.LBB0_80:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 4*r11]
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_346
-# %bb.342:
-	and	al, r10b
-	jne	.LBB0_346
-# %bb.343:
-	mov	esi, r11d
-	and	esi, -32
-	xor	eax, eax
-.LBB0_344:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rax]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rax + 96]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rax]
-	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rax + 32]
-	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rax + 64]
-	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm3
-	add	rax, 32
-	cmp	rsi, rax
-	jne	.LBB0_344
-# %bb.345:
-	cmp	rsi, r11
-	je	.LBB0_404
-.LBB0_346:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
+	test	r9b, r11b
+	jne	.LBB0_85
+# %bb.81:
+	and	al, dil
+	jne	.LBB0_85
+# %bb.82:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_83:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_83
+# %bb.84:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_85:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_348
-	.p2align	4, 0x90
-.LBB0_347:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, dword ptr [rdx + 4*rsi]
-	sub	ebx, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], ebx
+	je	.LBB0_87
+.LBB0_86:                               # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_347
-.LBB0_348:
-	cmp	r10, 3
-	jb	.LBB0_404
-	.p2align	4, 0x90
-.LBB0_349:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+	jne	.LBB0_86
+.LBB0_87:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_88:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_349
-	jmp	.LBB0_404
-.LBB0_395:
-	lea	rsi, [r8 + 8*r11]
-	lea	rax, [rdx + 8*r11]
+	cmp	r10, rsi
+	jne	.LBB0_88
+	jmp	.LBB0_537
+.LBB0_327:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 8*r11]
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_400
-# %bb.396:
-	and	al, r10b
-	jne	.LBB0_400
-# %bb.397:
-	mov	esi, r11d
-	and	esi, -16
-	xor	eax, eax
-.LBB0_398:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rax]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rax + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rax + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rax + 96]
-	vsubpd	ymm0, ymm0, ymmword ptr [rcx + 8*rax]
-	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rax + 32]
-	vsubpd	ymm2, ymm2, ymmword ptr [rcx + 8*rax + 64]
-	vsubpd	ymm3, ymm3, ymmword ptr [rcx + 8*rax + 96]
-	vmovupd	ymmword ptr [r8 + 8*rax], ymm0
-	vmovupd	ymmword ptr [r8 + 8*rax + 32], ymm1
-	vmovupd	ymmword ptr [r8 + 8*rax + 64], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rax + 96], ymm3
-	add	rax, 16
-	cmp	rsi, rax
-	jne	.LBB0_398
-# %bb.399:
-	cmp	rsi, r11
-	je	.LBB0_404
-.LBB0_400:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
+	test	r9b, r11b
+	jne	.LBB0_332
+# %bb.328:
+	and	al, dil
+	jne	.LBB0_332
+# %bb.329:
+	mov	esi, r10d
+	and	esi, -64
+	xor	edi, edi
+.LBB0_330:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_330
+# %bb.331:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_332:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_402
-	.p2align	4, 0x90
-.LBB0_401:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	je	.LBB0_334
+.LBB0_333:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	di, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_401
-.LBB0_402:
-	cmp	r10, 3
-	jb	.LBB0_404
-	.p2align	4, 0x90
-.LBB0_403:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	jne	.LBB0_333
+.LBB0_334:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_335:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_403
-	jmp	.LBB0_404
-.LBB0_308:
-	lea	rsi, [r8 + r11]
-	lea	rax, [rdx + r11]
+	cmp	r10, rsi
+	jne	.LBB0_335
+	jmp	.LBB0_537
+.LBB0_339:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + r11]
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_313
-# %bb.309:
-	and	al, r10b
-	jne	.LBB0_313
-# %bb.310:
-	mov	esi, r11d
-	and	esi, -128
-	xor	eax, eax
-.LBB0_311:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + rax]
-	vmovdqu	ymm1, ymmword ptr [rdx + rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + rax + 96]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rax]
-	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rax + 32]
-	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rax + 64]
-	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rax + 96]
-	vmovdqu	ymmword ptr [r8 + rax], ymm0
-	vmovdqu	ymmword ptr [r8 + rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rax + 96], ymm3
-	sub	rax, -128
-	cmp	rsi, rax
-	jne	.LBB0_311
-# %bb.312:
-	cmp	rsi, r11
-	je	.LBB0_404
-.LBB0_313:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_315
-	.p2align	4, 0x90
-.LBB0_314:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, byte ptr [rdx + rsi]
-	sub	bl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], bl
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_314
-.LBB0_315:
-	cmp	r10, 3
-	jb	.LBB0_404
-	.p2align	4, 0x90
-.LBB0_316:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_316
-	jmp	.LBB0_404
-.LBB0_362:
-	lea	rsi, [r8 + 8*r11]
-	lea	rax, [rdx + 8*r11]
-	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 8*r11]
-	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	r10b
-	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_367
-# %bb.363:
-	and	al, r10b
-	jne	.LBB0_367
-# %bb.364:
-	mov	esi, r11d
-	and	esi, -16
-	xor	eax, eax
-.LBB0_365:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rax]
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rax + 96]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rax]
-	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rax + 32]
-	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rax + 64]
-	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm3
-	add	rax, 16
-	cmp	rsi, rax
-	jne	.LBB0_365
-# %bb.366:
-	cmp	rsi, r11
-	je	.LBB0_404
-.LBB0_367:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_369
-	.p2align	4, 0x90
-.LBB0_368:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, qword ptr [rdx + 8*rsi]
-	sub	rbx, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rbx
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_368
-.LBB0_369:
-	cmp	r10, 3
-	jb	.LBB0_404
-	.p2align	4, 0x90
-.LBB0_370:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_370
-	jmp	.LBB0_404
-.LBB0_320:
-	lea	rsi, [r8 + 2*r11]
-	lea	rax, [rdx + 2*r11]
-	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 2*r11]
-	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	r10b
-	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_325
-# %bb.321:
-	and	al, r10b
-	jne	.LBB0_325
-# %bb.322:
-	mov	esi, r11d
-	and	esi, -64
-	xor	eax, eax
-.LBB0_323:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 2*rax]
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rax + 96]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rax]
-	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rax + 32]
-	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rax + 64]
-	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rax + 96], ymm3
-	add	rax, 64
-	cmp	rsi, rax
-	jne	.LBB0_323
-# %bb.324:
-	cmp	rsi, r11
-	je	.LBB0_404
-.LBB0_325:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_327
-	.p2align	4, 0x90
-.LBB0_326:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rdx + 2*rsi]
-	sub	bx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], bx
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_326
-.LBB0_327:
-	cmp	r10, 3
-	jb	.LBB0_404
-	.p2align	4, 0x90
-.LBB0_328:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_328
-	jmp	.LBB0_404
-.LBB0_332:
-	lea	rsi, [r8 + 2*r11]
-	lea	rax, [rdx + 2*r11]
-	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 2*r11]
-	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	r10b
-	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_337
-# %bb.333:
-	and	al, r10b
-	jne	.LBB0_337
-# %bb.334:
-	mov	esi, r11d
+	test	r9b, r11b
+	jne	.LBB0_344
+# %bb.340:
+	and	al, dil
+	jne	.LBB0_344
+# %bb.341:
+	mov	esi, r10d
 	and	esi, -64
-	xor	eax, eax
-.LBB0_335:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 2*rax]
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rax + 96]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rax]
-	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rax + 32]
-	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rax + 64]
-	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rax + 96], ymm3
-	add	rax, 64
-	cmp	rsi, rax
-	jne	.LBB0_335
-# %bb.336:
-	cmp	rsi, r11
-	je	.LBB0_404
-.LBB0_337:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
+	xor	edi, edi
+.LBB0_342:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
+	add	rdi, 64
+	cmp	rsi, rdi
+	jne	.LBB0_342
+# %bb.343:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_344:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_339
-	.p2align	4, 0x90
-.LBB0_338:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rdx + 2*rsi]
-	sub	bx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], bx
+	je	.LBB0_346
+.LBB0_345:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	di, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_338
-.LBB0_339:
-	cmp	r10, 3
-	jb	.LBB0_404
-	.p2align	4, 0x90
-.LBB0_340:                              # =>This Inner Loop Header: Depth=1
+	jne	.LBB0_345
+.LBB0_346:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_347:                              # =>This Inner Loop Header: Depth=1
 	movzx	eax, word ptr [rdx + 2*rsi]
 	sub	ax, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], ax
@@ -2596,976 +2376,818 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	sub	ax, word ptr [rcx + 2*rsi + 6]
 	mov	word ptr [r8 + 2*rsi + 6], ax
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_340
-	jmp	.LBB0_404
-.LBB0_374:
-	lea	rsi, [r8 + 8*r11]
-	lea	rax, [rdx + 8*r11]
+	cmp	r10, rsi
+	jne	.LBB0_347
+	jmp	.LBB0_537
+.LBB0_248:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 8*r11]
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_379
-# %bb.375:
-	and	al, r10b
-	jne	.LBB0_379
-# %bb.376:
-	mov	esi, r11d
+	test	r9b, r11b
+	jne	.LBB0_253
+# %bb.249:
+	and	al, dil
+	jne	.LBB0_253
+# %bb.250:
+	mov	esi, r10d
 	and	esi, -16
-	xor	eax, eax
-.LBB0_377:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rax]
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rax + 96]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rax]
-	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rax + 32]
-	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rax + 64]
-	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm3
-	add	rax, 16
-	cmp	rsi, rax
-	jne	.LBB0_377
-# %bb.378:
-	cmp	rsi, r11
-	je	.LBB0_404
-.LBB0_379:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
+	xor	edi, edi
+.LBB0_251:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_251
+# %bb.252:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_253:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_381
-	.p2align	4, 0x90
-.LBB0_380:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, qword ptr [rdx + 8*rsi]
-	sub	rbx, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rbx
+	je	.LBB0_255
+.LBB0_254:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rsi]
+	add	rdi, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_380
-.LBB0_381:
-	cmp	r10, 3
-	jb	.LBB0_404
-	.p2align	4, 0x90
-.LBB0_382:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
+	jne	.LBB0_254
+.LBB0_255:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_256:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
 	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
 	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
 	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_382
-	jmp	.LBB0_404
-.LBB0_386:
-	lea	rsi, [r8 + 4*r11]
-	lea	rax, [rdx + 4*r11]
+	cmp	r10, rsi
+	jne	.LBB0_256
+	jmp	.LBB0_537
+.LBB0_260:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 4*r11]
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_391
-# %bb.387:
-	and	al, r10b
-	jne	.LBB0_391
-# %bb.388:
-	mov	esi, r11d
+	test	r9b, r11b
+	jne	.LBB0_265
+# %bb.261:
+	and	al, dil
+	jne	.LBB0_265
+# %bb.262:
+	mov	esi, r10d
 	and	esi, -32
-	xor	eax, eax
-.LBB0_389:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rax]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rax + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rax + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rax + 96]
-	vsubps	ymm0, ymm0, ymmword ptr [rcx + 4*rax]
-	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rax + 32]
-	vsubps	ymm2, ymm2, ymmword ptr [rcx + 4*rax + 64]
-	vsubps	ymm3, ymm3, ymmword ptr [rcx + 4*rax + 96]
-	vmovups	ymmword ptr [r8 + 4*rax], ymm0
-	vmovups	ymmword ptr [r8 + 4*rax + 32], ymm1
-	vmovups	ymmword ptr [r8 + 4*rax + 64], ymm2
-	vmovups	ymmword ptr [r8 + 4*rax + 96], ymm3
-	add	rax, 32
-	cmp	rsi, rax
-	jne	.LBB0_389
-# %bb.390:
-	cmp	rsi, r11
-	je	.LBB0_404
-.LBB0_391:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
+	xor	edi, edi
+.LBB0_263:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vaddps	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vaddps	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vaddps	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_263
+# %bb.264:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_265:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_393
-	.p2align	4, 0x90
-.LBB0_392:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
+	je	.LBB0_267
+.LBB0_266:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
 	vmovss	dword ptr [r8 + 4*rsi], xmm0
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_392
-.LBB0_393:
-	cmp	r10, 3
-	jb	.LBB0_404
-	.p2align	4, 0x90
-.LBB0_394:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
+	jne	.LBB0_266
+.LBB0_267:
+	cmp	rdi, 3
+	jb	.LBB0_537
+.LBB0_268:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
 	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 4]
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
 	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 8]
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
 	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 12]
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
 	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_394
-	jmp	.LBB0_404
-.LBB0_299:
-	lea	rsi, [r8 + r11]
-	lea	rax, [rdx + r11]
+	cmp	r10, rsi
+	jne	.LBB0_268
+	jmp	.LBB0_537
+.LBB0_507:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + r11]
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_304
-# %bb.300:
-	and	al, r10b
-	jne	.LBB0_304
-# %bb.301:
-	mov	esi, r11d
-	and	esi, -128
-	xor	eax, eax
-.LBB0_302:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + rax]
-	vmovdqu	ymm1, ymmword ptr [rdx + rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + rax + 96]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rax]
-	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rax + 32]
-	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rax + 64]
-	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rax + 96]
-	vmovdqu	ymmword ptr [r8 + rax], ymm0
-	vmovdqu	ymmword ptr [r8 + rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rax + 96], ymm3
-	sub	rax, -128
-	cmp	rsi, rax
-	jne	.LBB0_302
-# %bb.303:
-	cmp	rsi, r11
-	je	.LBB0_404
-.LBB0_304:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_306
-	.p2align	4, 0x90
-.LBB0_305:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, byte ptr [rdx + rsi]
-	sub	bl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], bl
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_305
-.LBB0_306:
-	cmp	r10, 3
-	jb	.LBB0_404
-	.p2align	4, 0x90
-.LBB0_307:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_307
-	jmp	.LBB0_404
-.LBB0_353:
-	lea	rsi, [r8 + 4*r11]
-	lea	rax, [rdx + 4*r11]
-	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 4*r11]
-	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	r10b
-	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_358
-# %bb.354:
-	and	al, r10b
-	jne	.LBB0_358
-# %bb.355:
-	mov	esi, r11d
-	and	esi, -32
-	xor	eax, eax
-.LBB0_356:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rax]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rax + 96]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rax]
-	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rax + 32]
-	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rax + 64]
-	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm3
-	add	rax, 32
-	cmp	rsi, rax
-	jne	.LBB0_356
-# %bb.357:
-	cmp	rsi, r11
-	je	.LBB0_404
-.LBB0_358:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
+	test	r9b, r11b
+	jne	.LBB0_512
+# %bb.508:
+	and	al, dil
+	jne	.LBB0_512
+# %bb.509:
+	mov	esi, r10d
+	and	esi, -16
+	xor	edi, edi
+.LBB0_510:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_510
+# %bb.511:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_512:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_360
-	.p2align	4, 0x90
-.LBB0_359:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, dword ptr [rdx + 4*rsi]
-	sub	ebx, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], ebx
+	je	.LBB0_514
+.LBB0_513:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rdx + 8*rsi]
+	sub	rdi, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_359
-.LBB0_360:
-	cmp	r10, 3
-	jb	.LBB0_404
-	.p2align	4, 0x90
-.LBB0_361:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+	jne	.LBB0_513
+.LBB0_514:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_515:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_361
-	jmp	.LBB0_404
-.LBB0_75:
-	lea	rsi, [r8 + 4*r11]
-	lea	rax, [rdx + 4*r11]
+	cmp	r10, rsi
+	jne	.LBB0_515
+	jmp	.LBB0_537
+.LBB0_519:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 4*r11]
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_80
-# %bb.76:
-	and	al, r10b
-	jne	.LBB0_80
-# %bb.77:
-	mov	esi, r11d
+	test	r9b, r11b
+	jne	.LBB0_524
+# %bb.520:
+	and	al, dil
+	jne	.LBB0_524
+# %bb.521:
+	mov	esi, r10d
 	and	esi, -32
-	xor	eax, eax
-.LBB0_78:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rax]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rax + 96]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rax]
-	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rax + 32]
-	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rax + 64]
-	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm3
-	add	rax, 32
-	cmp	rsi, rax
-	jne	.LBB0_78
-# %bb.79:
-	cmp	rsi, r11
-	je	.LBB0_138
-.LBB0_80:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
+	xor	edi, edi
+.LBB0_522:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vsubps	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
+	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vsubps	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vsubps	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_522
+# %bb.523:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_524:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_82
-.LBB0_81:                               # =>This Inner Loop Header: Depth=1
-	mov	ebx, dword ptr [rcx + 4*rsi]
-	add	ebx, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], ebx
+	je	.LBB0_526
+.LBB0_525:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_81
-.LBB0_82:
-	cmp	r10, 3
-	jb	.LBB0_138
-.LBB0_83:                               # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+	jne	.LBB0_525
+.LBB0_526:
+	cmp	rdi, 3
+	jb	.LBB0_537
+.LBB0_527:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_83
-	jmp	.LBB0_138
-.LBB0_129:
-	lea	rsi, [r8 + 8*r11]
-	lea	rax, [rdx + 8*r11]
+	cmp	r10, rsi
+	jne	.LBB0_527
+	jmp	.LBB0_537
+.LBB0_122:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 8*r11]
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_134
-# %bb.130:
-	and	al, r10b
-	jne	.LBB0_134
-# %bb.131:
-	mov	esi, r11d
+	test	r9b, r11b
+	jne	.LBB0_127
+# %bb.123:
+	and	al, dil
+	jne	.LBB0_127
+# %bb.124:
+	mov	esi, r10d
 	and	esi, -16
-	xor	eax, eax
-.LBB0_132:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rcx + 8*rax]
-	vmovupd	ymm1, ymmword ptr [rcx + 8*rax + 32]
-	vmovupd	ymm2, ymmword ptr [rcx + 8*rax + 64]
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rax + 96]
-	vaddpd	ymm0, ymm0, ymmword ptr [rdx + 8*rax]
-	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rax + 32]
-	vaddpd	ymm2, ymm2, ymmword ptr [rdx + 8*rax + 64]
-	vaddpd	ymm3, ymm3, ymmword ptr [rdx + 8*rax + 96]
-	vmovupd	ymmword ptr [r8 + 8*rax], ymm0
-	vmovupd	ymmword ptr [r8 + 8*rax + 32], ymm1
-	vmovupd	ymmword ptr [r8 + 8*rax + 64], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rax + 96], ymm3
-	add	rax, 16
-	cmp	rsi, rax
-	jne	.LBB0_132
-# %bb.133:
-	cmp	rsi, r11
-	je	.LBB0_138
-.LBB0_134:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
+	xor	edi, edi
+.LBB0_125:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_125
+# %bb.126:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_127:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_136
-.LBB0_135:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
+	je	.LBB0_129
+.LBB0_128:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rsi]
+	add	rdi, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_135
-.LBB0_136:
-	cmp	r10, 3
-	jb	.LBB0_138
-.LBB0_137:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	jne	.LBB0_128
+.LBB0_129:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_130:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_137
-	jmp	.LBB0_138
-.LBB0_42:
-	lea	rsi, [r8 + r11]
-	lea	rax, [rdx + r11]
+	cmp	r10, rsi
+	jne	.LBB0_130
+	jmp	.LBB0_537
+.LBB0_134:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + r11]
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_47
-# %bb.43:
-	and	al, r10b
-	jne	.LBB0_47
-# %bb.44:
-	mov	esi, r11d
-	and	esi, -128
-	xor	eax, eax
-.LBB0_45:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + rax]
-	vmovdqu	ymm1, ymmword ptr [rcx + rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + rax + 96]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rax]
-	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rax + 32]
-	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rax + 64]
-	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rax + 96]
-	vmovdqu	ymmword ptr [r8 + rax], ymm0
-	vmovdqu	ymmword ptr [r8 + rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rax + 96], ymm3
-	sub	rax, -128
-	cmp	rsi, rax
-	jne	.LBB0_45
-# %bb.46:
-	cmp	rsi, r11
-	je	.LBB0_138
-.LBB0_47:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
+	test	r9b, r11b
+	jne	.LBB0_139
+# %bb.135:
+	and	al, dil
+	jne	.LBB0_139
+# %bb.136:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_137:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vaddps	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vaddps	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vaddps	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_137
+# %bb.138:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_139:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_49
-.LBB0_48:                               # =>This Inner Loop Header: Depth=1
-	movzx	ebx, byte ptr [rcx + rsi]
-	add	bl, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], bl
-	add	rsi, 1
+	je	.LBB0_141
+.LBB0_140:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_48
-.LBB0_49:
-	cmp	r10, 3
-	jb	.LBB0_138
-.LBB0_50:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
+	jne	.LBB0_140
+.LBB0_141:
+	cmp	rdi, 3
+	jb	.LBB0_537
+.LBB0_142:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_50
-	jmp	.LBB0_138
-.LBB0_96:
-	lea	rsi, [r8 + 8*r11]
-	lea	rax, [rdx + 8*r11]
+	cmp	r10, rsi
+	jne	.LBB0_142
+	jmp	.LBB0_537
+.LBB0_381:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 8*r11]
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_101
-# %bb.97:
-	and	al, r10b
-	jne	.LBB0_101
-# %bb.98:
-	mov	esi, r11d
+	test	r9b, r11b
+	jne	.LBB0_386
+# %bb.382:
+	and	al, dil
+	jne	.LBB0_386
+# %bb.383:
+	mov	esi, r10d
 	and	esi, -16
-	xor	eax, eax
-.LBB0_99:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 8*rax]
-	vmovdqu	ymm1, ymmword ptr [rcx + 8*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rax + 96]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rax]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rax + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rax + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm3
-	add	rax, 16
-	cmp	rsi, rax
-	jne	.LBB0_99
-# %bb.100:
-	cmp	rsi, r11
-	je	.LBB0_138
-.LBB0_101:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
+	xor	edi, edi
+.LBB0_384:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
+	add	rdi, 16
+	cmp	rsi, rdi
+	jne	.LBB0_384
+# %bb.385:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_386:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_103
-.LBB0_102:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, qword ptr [rcx + 8*rsi]
-	add	rbx, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rbx
+	je	.LBB0_388
+.LBB0_387:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rdx + 8*rsi]
+	sub	rdi, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rdi
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_102
-.LBB0_103:
-	cmp	r10, 3
-	jb	.LBB0_138
-.LBB0_104:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
+	jne	.LBB0_387
+.LBB0_388:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_389:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
 	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
 	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
 	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_104
-	jmp	.LBB0_138
-.LBB0_54:
-	lea	rsi, [r8 + 2*r11]
-	lea	rax, [rdx + 2*r11]
+	cmp	r10, rsi
+	jne	.LBB0_389
+	jmp	.LBB0_537
+.LBB0_393:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 2*r11]
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_59
-# %bb.55:
-	and	al, r10b
-	jne	.LBB0_59
-# %bb.56:
-	mov	esi, r11d
-	and	esi, -64
-	xor	eax, eax
-.LBB0_57:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rax]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rax + 96]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rax]
-	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rax + 64]
-	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rax + 96], ymm3
-	add	rax, 64
-	cmp	rsi, rax
-	jne	.LBB0_57
-# %bb.58:
-	cmp	rsi, r11
-	je	.LBB0_138
-.LBB0_59:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
+	test	r9b, r11b
+	jne	.LBB0_398
+# %bb.394:
+	and	al, dil
+	jne	.LBB0_398
+# %bb.395:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_396:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vsubps	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
+	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vsubps	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vsubps	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_396
+# %bb.397:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_398:
+	mov	rdi, rsi
+	not	rdi
+	add	rdi, r10
+	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_61
-.LBB0_60:                               # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rcx + 2*rsi]
-	add	bx, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], bx
+	je	.LBB0_400
+.LBB0_399:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_60
-.LBB0_61:
-	cmp	r10, 3
-	jb	.LBB0_138
-.LBB0_62:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
+	jne	.LBB0_399
+.LBB0_400:
+	cmp	rdi, 3
+	jb	.LBB0_537
+.LBB0_401:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
+	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 4]
+	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 8]
+	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 12]
+	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_62
-	jmp	.LBB0_138
-.LBB0_66:
-	lea	rsi, [r8 + 2*r11]
-	lea	rax, [rdx + 2*r11]
+	cmp	r10, rsi
+	jne	.LBB0_401
+	jmp	.LBB0_537
+.LBB0_173:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 2*r11]
+	seta	r9b
+	lea	rax, [rcx + r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_71
-# %bb.67:
-	and	al, r10b
-	jne	.LBB0_71
-# %bb.68:
-	mov	esi, r11d
-	and	esi, -64
-	xor	eax, eax
-.LBB0_69:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rax]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rax + 96]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rax]
-	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rax + 32]
-	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rax + 64]
-	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 2*rax + 96], ymm3
-	add	rax, 64
-	cmp	rsi, rax
-	jne	.LBB0_69
-# %bb.70:
-	cmp	rsi, r11
-	je	.LBB0_138
-.LBB0_71:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_73
-.LBB0_72:                               # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rcx + 2*rsi]
-	add	bx, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], bx
+	test	r9b, r11b
+	jne	.LBB0_178
+# %bb.174:
+	and	al, dil
+	jne	.LBB0_178
+# %bb.175:
+	mov	esi, r10d
+	and	esi, -128
+	xor	edi, edi
+.LBB0_176:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
+	sub	rdi, -128
+	cmp	rsi, rdi
+	jne	.LBB0_176
+# %bb.177:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_178:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_180
+.LBB0_179:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_72
-.LBB0_73:
-	cmp	r10, 3
-	jb	.LBB0_138
-.LBB0_74:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rdi, -1
+	jne	.LBB0_179
+.LBB0_180:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_181:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_74
-	jmp	.LBB0_138
-.LBB0_108:
-	lea	rsi, [r8 + 8*r11]
-	lea	rax, [rdx + 8*r11]
+	cmp	r10, rsi
+	jne	.LBB0_181
+	jmp	.LBB0_537
+.LBB0_432:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 8*r11]
+	seta	r9b
+	lea	rax, [rcx + r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_113
-# %bb.109:
-	and	al, r10b
-	jne	.LBB0_113
-# %bb.110:
-	mov	esi, r11d
-	and	esi, -16
-	xor	eax, eax
-.LBB0_111:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 8*rax]
-	vmovdqu	ymm1, ymmword ptr [rcx + 8*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rax + 96]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rax]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rax + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rax + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm3
-	add	rax, 16
-	cmp	rsi, rax
-	jne	.LBB0_111
-# %bb.112:
-	cmp	rsi, r11
-	je	.LBB0_138
-.LBB0_113:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_115
-.LBB0_114:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, qword ptr [rcx + 8*rsi]
-	add	rbx, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rbx
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_114
-.LBB0_115:
-	cmp	r10, 3
-	jb	.LBB0_138
-.LBB0_116:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_116
-	jmp	.LBB0_138
-.LBB0_120:
-	lea	rsi, [r8 + 4*r11]
-	lea	rax, [rdx + 4*r11]
-	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 4*r11]
-	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	r10b
-	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_125
-# %bb.121:
-	and	al, r10b
-	jne	.LBB0_125
-# %bb.122:
-	mov	esi, r11d
-	and	esi, -32
-	xor	eax, eax
-.LBB0_123:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rcx + 4*rax]
-	vmovups	ymm1, ymmword ptr [rcx + 4*rax + 32]
-	vmovups	ymm2, ymmword ptr [rcx + 4*rax + 64]
-	vmovups	ymm3, ymmword ptr [rcx + 4*rax + 96]
-	vaddps	ymm0, ymm0, ymmword ptr [rdx + 4*rax]
-	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rax + 32]
-	vaddps	ymm2, ymm2, ymmword ptr [rdx + 4*rax + 64]
-	vaddps	ymm3, ymm3, ymmword ptr [rdx + 4*rax + 96]
-	vmovups	ymmword ptr [r8 + 4*rax], ymm0
-	vmovups	ymmword ptr [r8 + 4*rax + 32], ymm1
-	vmovups	ymmword ptr [r8 + 4*rax + 64], ymm2
-	vmovups	ymmword ptr [r8 + 4*rax + 96], ymm3
-	add	rax, 32
-	cmp	rsi, rax
-	jne	.LBB0_123
-# %bb.124:
-	cmp	rsi, r11
-	je	.LBB0_138
-.LBB0_125:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_127
-.LBB0_126:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
+	test	r9b, r11b
+	jne	.LBB0_437
+# %bb.433:
+	and	al, dil
+	jne	.LBB0_437
+# %bb.434:
+	mov	esi, r10d
+	and	esi, -128
+	xor	edi, edi
+.LBB0_435:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
+	sub	rdi, -128
+	cmp	rsi, rdi
+	jne	.LBB0_435
+# %bb.436:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_437:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_439
+.LBB0_438:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_126
-.LBB0_127:
-	cmp	r10, 3
-	jb	.LBB0_138
-.LBB0_128:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rdi, -1
+	jne	.LBB0_438
+.LBB0_439:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_440:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_128
-	jmp	.LBB0_138
-.LBB0_33:
-	lea	rsi, [r8 + r11]
-	lea	rax, [rdx + r11]
+	cmp	r10, rsi
+	jne	.LBB0_440
+	jmp	.LBB0_537
+.LBB0_47:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + r11]
+	seta	r9b
+	lea	rax, [rcx + r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_38
-# %bb.34:
-	and	al, r10b
-	jne	.LBB0_38
-# %bb.35:
-	mov	esi, r11d
+	test	r9b, r11b
+	jne	.LBB0_52
+# %bb.48:
+	and	al, dil
+	jne	.LBB0_52
+# %bb.49:
+	mov	esi, r10d
 	and	esi, -128
-	xor	eax, eax
-.LBB0_36:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + rax]
-	vmovdqu	ymm1, ymmword ptr [rcx + rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + rax + 96]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rax]
-	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rax + 32]
-	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rax + 64]
-	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rax + 96]
-	vmovdqu	ymmword ptr [r8 + rax], ymm0
-	vmovdqu	ymmword ptr [r8 + rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + rax + 96], ymm3
-	sub	rax, -128
-	cmp	rsi, rax
-	jne	.LBB0_36
-# %bb.37:
-	cmp	rsi, r11
-	je	.LBB0_138
-.LBB0_38:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
-	and	rax, 3
-	je	.LBB0_40
-.LBB0_39:                               # =>This Inner Loop Header: Depth=1
-	movzx	ebx, byte ptr [rcx + rsi]
-	add	bl, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], bl
+	xor	edi, edi
+.LBB0_50:                               # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
+	sub	rdi, -128
+	cmp	rsi, rdi
+	jne	.LBB0_50
+# %bb.51:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_52:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_54
+.LBB0_53:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_39
-.LBB0_40:
-	cmp	r10, 3
-	jb	.LBB0_138
-.LBB0_41:                               # =>This Inner Loop Header: Depth=1
+	add	rdi, -1
+	jne	.LBB0_53
+.LBB0_54:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_55:                               # =>This Inner Loop Header: Depth=1
 	movzx	eax, byte ptr [rcx + rsi]
 	add	al, byte ptr [rdx + rsi]
 	mov	byte ptr [r8 + rsi], al
@@ -3579,68 +3201,143 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	add	al, byte ptr [rdx + rsi + 3]
 	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_41
-	jmp	.LBB0_138
-.LBB0_87:
-	lea	rsi, [r8 + 4*r11]
-	lea	rax, [rdx + 4*r11]
+	cmp	r10, rsi
+	jne	.LBB0_55
+	jmp	.LBB0_537
+.LBB0_306:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 4*r11]
+	seta	r9b
+	lea	rax, [rcx + r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r10b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_92
-# %bb.88:
-	and	al, r10b
-	jne	.LBB0_92
-# %bb.89:
-	mov	esi, r11d
+	test	r9b, r11b
+	jne	.LBB0_311
+# %bb.307:
+	and	al, dil
+	jne	.LBB0_311
+# %bb.308:
+	mov	esi, r10d
+	and	esi, -128
+	xor	edi, edi
+.LBB0_309:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
+	sub	rdi, -128
+	cmp	rsi, rdi
+	jne	.LBB0_309
+# %bb.310:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_311:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_313
+.LBB0_312:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_312
+.LBB0_313:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_314:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_314
+	jmp	.LBB0_537
+.LBB0_227:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_232
+# %bb.228:
+	and	al, dil
+	jne	.LBB0_232
+# %bb.229:
+	mov	esi, r10d
 	and	esi, -32
-	xor	eax, eax
-.LBB0_90:                               # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rax]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rax + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rax + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rax + 96]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rax]
-	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rax + 32]
-	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rax + 64]
-	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rax + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rax], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm3
-	add	rax, 32
-	cmp	rsi, rax
-	jne	.LBB0_90
-# %bb.91:
-	cmp	rsi, r11
-	je	.LBB0_138
-.LBB0_92:
-	mov	r10, rsi
-	not	r10
-	add	r10, r11
-	mov	rax, r11
+	xor	edi, edi
+.LBB0_230:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_230
+# %bb.231:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_232:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_94
-.LBB0_93:                               # =>This Inner Loop Header: Depth=1
-	mov	ebx, dword ptr [rcx + 4*rsi]
-	add	ebx, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], ebx
+	je	.LBB0_234
+.LBB0_233:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rsi]
+	add	edi, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_93
-.LBB0_94:
-	cmp	r10, 3
-	jb	.LBB0_138
-.LBB0_95:                               # =>This Inner Loop Header: Depth=1
+	jne	.LBB0_233
+.LBB0_234:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_235:                              # =>This Inner Loop Header: Depth=1
 	mov	eax, dword ptr [rcx + 4*rsi]
 	add	eax, dword ptr [rdx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
@@ -3654,158 +3351,381 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	add	eax, dword ptr [rdx + 4*rsi + 12]
 	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB0_95
-	jmp	.LBB0_138
-.Lfunc_end0:
-	.size	arithmetic_avx2, .Lfunc_end0-arithmetic_avx2
-                                        # -- End function
-	.globl	arithmetic_arr_scalar_avx2      # -- Begin function arithmetic_arr_scalar_avx2
-	.p2align	4, 0x90
-	.type	arithmetic_arr_scalar_avx2,@function
-arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r14
-	push	rbx
-	and	rsp, -8
-	cmp	sil, 1
-	jg	.LBB1_11
-# %bb.1:
-	test	sil, sil
-	je	.LBB1_28
-# %bb.2:
-	cmp	sil, 1
-	jne	.LBB1_517
-.LBB1_3:
-	cmp	edi, 6
-	jg	.LBB1_36
-# %bb.4:
-	cmp	edi, 3
-	jle	.LBB1_60
-# %bb.5:
-	cmp	edi, 4
-	je	.LBB1_98
-# %bb.6:
-	cmp	edi, 5
-	je	.LBB1_101
-# %bb.7:
-	cmp	edi, 6
-	jne	.LBB1_474
-# %bb.8:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.9:
-	mov	r14d, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_10
-# %bb.164:
+	cmp	r10, rsi
+	jne	.LBB0_235
+	jmp	.LBB0_537
+.LBB0_486:
+	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
-	jbe	.LBB1_254
-# %bb.165:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_254
-.LBB1_10:
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
 	xor	esi, esi
-.LBB1_398:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_400
-	.p2align	4, 0x90
-.LBB1_399:                              # =>This Inner Loop Header: Depth=1
+	test	r9b, r11b
+	jne	.LBB0_491
+# %bb.487:
+	and	al, dil
+	jne	.LBB0_491
+# %bb.488:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_489:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_489
+# %bb.490:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_491:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_493
+.LBB0_492:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rdx + 4*rsi]
+	sub	edi, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_492
+.LBB0_493:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_494:                              # =>This Inner Loop Header: Depth=1
 	mov	eax, dword ptr [rdx + 4*rsi]
-	add	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_494
+	jmp	.LBB0_537
+.LBB0_101:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_106
+# %bb.102:
+	and	al, dil
+	jne	.LBB0_106
+# %bb.103:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_104:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_104
+# %bb.105:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_106:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_108
+.LBB0_107:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rsi]
+	add	edi, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_399
-.LBB1_400:
-	cmp	r11, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_401:                              # =>This Inner Loop Header: Depth=1
+	add	rax, -1
+	jne	.LBB0_107
+.LBB0_108:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_109:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_109
+	jmp	.LBB0_537
+.LBB0_360:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_365
+# %bb.361:
+	and	al, dil
+	jne	.LBB0_365
+# %bb.362:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_363:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
+	add	rdi, 32
+	cmp	rsi, rdi
+	jne	.LBB0_363
+# %bb.364:
+	cmp	rsi, r10
+	je	.LBB0_537
+.LBB0_365:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rax, r10
+	and	rax, 3
+	je	.LBB0_367
+.LBB0_366:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rdx + 4*rsi]
+	sub	edi, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], edi
+	add	rsi, 1
+	add	rax, -1
+	jne	.LBB0_366
+.LBB0_367:
+	cmp	r9, 3
+	jb	.LBB0_537
+.LBB0_368:                              # =>This Inner Loop Header: Depth=1
 	mov	eax, dword ptr [rdx + 4*rsi]
-	add	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
 	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	add	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
 	mov	dword ptr [r8 + 4*rsi + 4], eax
 	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	add	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
 	mov	dword ptr [r8 + 4*rsi + 8], eax
 	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	add	eax, r14d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
 	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_401
-	jmp	.LBB1_474
+	jne	.LBB0_368
+.LBB0_537:
+	mov	rsp, rbp
+	pop	rbp
+	vzeroupper
+	ret
+.Lfunc_end0:
+	.size	arithmetic_avx2, .Lfunc_end0-arithmetic_avx2
+                                        # -- End function
+	.globl	arithmetic_arr_scalar_avx2      # -- Begin function arithmetic_arr_scalar_avx2
+	.p2align	4, 0x90
+	.type	arithmetic_arr_scalar_avx2,@function
+arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	cmp	sil, 1
+	jg	.LBB1_11
+# %bb.1:
+	test	sil, sil
+	je	.LBB1_21
+# %bb.2:
+	cmp	sil, 1
+	jne	.LBB1_737
+# %bb.3:
+	cmp	edi, 6
+	jg	.LBB1_37
+# %bb.4:
+	cmp	edi, 3
+	jle	.LBB1_65
+# %bb.5:
+	cmp	edi, 4
+	je	.LBB1_105
+# %bb.6:
+	cmp	edi, 5
+	je	.LBB1_108
+# %bb.7:
+	cmp	edi, 6
+	jne	.LBB1_737
+# %bb.8:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.9:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_10
+# %bb.177:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_297
+# %bb.178:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_297
+.LBB1_10:
+	xor	esi, esi
+.LBB1_421:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_423
+.LBB1_422:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_422
+.LBB1_423:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_424:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_424
+	jmp	.LBB1_737
 .LBB1_11:
 	cmp	sil, 2
-	je	.LBB1_474
+	je	.LBB1_29
 # %bb.12:
 	cmp	sil, 3
-	jne	.LBB1_517
-.LBB1_13:
+	jne	.LBB1_737
+# %bb.13:
 	cmp	edi, 6
-	jg	.LBB1_21
+	jg	.LBB1_44
 # %bb.14:
 	cmp	edi, 3
-	jle	.LBB1_50
+	jle	.LBB1_70
 # %bb.15:
 	cmp	edi, 4
-	je	.LBB1_70
+	je	.LBB1_111
 # %bb.16:
 	cmp	edi, 5
-	je	.LBB1_73
+	je	.LBB1_114
 # %bb.17:
 	cmp	edi, 6
-	jne	.LBB1_517
+	jne	.LBB1_737
 # %bb.18:
 	test	r9d, r9d
-	jle	.LBB1_517
+	jle	.LBB1_737
 # %bb.19:
 	mov	eax, dword ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 32
 	jb	.LBB1_20
-# %bb.134:
+# %bb.180:
 	lea	rcx, [rdx + 4*r10]
 	cmp	rcx, r8
-	jbe	.LBB1_194
-# %bb.135:
+	jbe	.LBB1_300
+# %bb.181:
 	lea	rcx, [r8 + 4*r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_194
+	jbe	.LBB1_300
 .LBB1_20:
 	xor	esi, esi
-.LBB1_318:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_320
-	.p2align	4, 0x90
-.LBB1_319:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, dword ptr [rdx + 4*rsi]
-	sub	ebx, eax
-	mov	dword ptr [r8 + 4*rsi], ebx
-	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_319
-.LBB1_320:
-	cmp	rdi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_321:                              # =>This Inner Loop Header: Depth=1
+.LBB1_429:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_431
+.LBB1_430:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_430
+.LBB1_431:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_432:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
 	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
@@ -3820,58 +3740,249 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	mov	dword ptr [r8 + 4*rsi + 12], ecx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_321
-	jmp	.LBB1_517
+	jne	.LBB1_432
+	jmp	.LBB1_737
 .LBB1_21:
-	cmp	edi, 8
-	jle	.LBB1_55
+	cmp	edi, 6
+	jg	.LBB1_51
 # %bb.22:
-	cmp	edi, 9
-	je	.LBB1_76
+	cmp	edi, 3
+	jle	.LBB1_75
 # %bb.23:
-	cmp	edi, 11
-	je	.LBB1_79
+	cmp	edi, 4
+	je	.LBB1_117
 # %bb.24:
-	cmp	edi, 12
-	jne	.LBB1_517
+	cmp	edi, 5
+	je	.LBB1_120
 # %bb.25:
-	test	r9d, r9d
-	jle	.LBB1_517
+	cmp	edi, 6
+	jne	.LBB1_737
 # %bb.26:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.27:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_28
+# %bb.183:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_303
+# %bb.184:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_303
+.LBB1_28:
+	xor	esi, esi
+.LBB1_437:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_439
+.LBB1_438:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_438
+.LBB1_439:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_440:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_440
+	jmp	.LBB1_737
+.LBB1_29:
+	cmp	edi, 6
+	jg	.LBB1_58
+# %bb.30:
+	cmp	edi, 3
+	jle	.LBB1_80
+# %bb.31:
+	cmp	edi, 4
+	je	.LBB1_123
+# %bb.32:
+	cmp	edi, 5
+	je	.LBB1_126
+# %bb.33:
+	cmp	edi, 6
+	jne	.LBB1_737
+# %bb.34:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.35:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_36
+# %bb.186:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_306
+# %bb.187:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_306
+.LBB1_36:
+	xor	esi, esi
+.LBB1_445:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_447
+.LBB1_446:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_446
+.LBB1_447:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_448:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_448
+	jmp	.LBB1_737
+.LBB1_37:
+	cmp	edi, 8
+	jle	.LBB1_85
+# %bb.38:
+	cmp	edi, 9
+	je	.LBB1_129
+# %bb.39:
+	cmp	edi, 11
+	je	.LBB1_132
+# %bb.40:
+	cmp	edi, 12
+	jne	.LBB1_737
+# %bb.41:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.42:
 	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
 	mov	eax, r9d
 	cmp	r9d, 16
-	jb	.LBB1_27
-# %bb.137:
+	jb	.LBB1_43
+# %bb.189:
 	lea	rcx, [rdx + 8*rax]
 	cmp	rcx, r8
-	jbe	.LBB1_197
-# %bb.138:
+	jbe	.LBB1_309
+# %bb.190:
 	lea	rcx, [r8 + 8*rax]
 	cmp	rcx, rdx
-	jbe	.LBB1_197
-.LBB1_27:
+	jbe	.LBB1_309
+.LBB1_43:
 	xor	ecx, ecx
-.LBB1_326:
+.LBB1_453:
 	mov	rsi, rcx
 	not	rsi
 	add	rsi, rax
 	mov	rdi, rax
 	and	rdi, 3
-	je	.LBB1_328
-	.p2align	4, 0x90
-.LBB1_327:                              # =>This Inner Loop Header: Depth=1
+	je	.LBB1_455
+.LBB1_454:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_454
+.LBB1_455:
+	cmp	rsi, 3
+	jb	.LBB1_737
+.LBB1_456:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 8]
+	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 16]
+	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 24]
+	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_456
+	jmp	.LBB1_737
+.LBB1_44:
+	cmp	edi, 8
+	jle	.LBB1_90
+# %bb.45:
+	cmp	edi, 9
+	je	.LBB1_135
+# %bb.46:
+	cmp	edi, 11
+	je	.LBB1_138
+# %bb.47:
+	cmp	edi, 12
+	jne	.LBB1_737
+# %bb.48:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.49:
+	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB1_50
+# %bb.192:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_312
+# %bb.193:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_312
+.LBB1_50:
+	xor	ecx, ecx
+.LBB1_461:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_463
+.LBB1_462:                              # =>This Inner Loop Header: Depth=1
 	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
 	vsubsd	xmm1, xmm1, xmm0
 	vmovsd	qword ptr [r8 + 8*rcx], xmm1
 	add	rcx, 1
 	add	rdi, -1
-	jne	.LBB1_327
-.LBB1_328:
+	jne	.LBB1_462
+.LBB1_463:
 	cmp	rsi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_329:                              # =>This Inner Loop Header: Depth=1
+	jb	.LBB1_737
+.LBB1_464:                              # =>This Inner Loop Header: Depth=1
 	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
 	vsubsd	xmm1, xmm1, xmm0
 	vmovsd	qword ptr [r8 + 8*rcx], xmm1
@@ -3886,239 +3997,231 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
 	add	rcx, 4
 	cmp	rax, rcx
-	jne	.LBB1_329
-	jmp	.LBB1_517
-.LBB1_28:
-	cmp	edi, 6
-	jg	.LBB1_43
-# %bb.29:
-	cmp	edi, 3
-	jle	.LBB1_88
-# %bb.30:
-	cmp	edi, 4
-	je	.LBB1_116
-# %bb.31:
-	cmp	edi, 5
-	je	.LBB1_119
-# %bb.32:
-	cmp	edi, 6
-	jne	.LBB1_3
-# %bb.33:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.34:
-	mov	r14d, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_35
-# %bb.224:
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB1_284
-# %bb.225:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_284
-.LBB1_35:
-	xor	esi, esi
-.LBB1_662:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_664
-.LBB1_663:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_663
-.LBB1_664:
-	cmp	r11, 3
-	jb	.LBB1_3
-.LBB1_665:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_665
-	jmp	.LBB1_3
-.LBB1_36:
+	jne	.LBB1_464
+	jmp	.LBB1_737
+.LBB1_51:
 	cmp	edi, 8
-	jle	.LBB1_65
-# %bb.37:
+	jle	.LBB1_95
+# %bb.52:
 	cmp	edi, 9
-	je	.LBB1_104
-# %bb.38:
+	je	.LBB1_141
+# %bb.53:
 	cmp	edi, 11
-	je	.LBB1_107
-# %bb.39:
+	je	.LBB1_144
+# %bb.54:
 	cmp	edi, 12
-	jne	.LBB1_474
-# %bb.40:
+	jne	.LBB1_737
+# %bb.55:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.41:
+	jle	.LBB1_737
+# %bb.56:
 	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	r11d, r9d
+	mov	eax, r9d
 	cmp	r9d, 16
-	jb	.LBB1_42
-# %bb.167:
-	lea	rax, [rdx + 8*r11]
-	cmp	rax, r8
-	jbe	.LBB1_257
-# %bb.168:
-	lea	rax, [r8 + 8*r11]
-	cmp	rax, rdx
-	jbe	.LBB1_257
-.LBB1_42:
-	xor	esi, esi
-.LBB1_406:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB1_408
-	.p2align	4, 0x90
-.LBB1_407:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_407
-.LBB1_408:
-	cmp	rax, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_409:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB1_409
-	jmp	.LBB1_474
-.LBB1_43:
+	jb	.LBB1_57
+# %bb.195:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_315
+# %bb.196:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_315
+.LBB1_57:
+	xor	ecx, ecx
+.LBB1_469:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_471
+.LBB1_470:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_470
+.LBB1_471:
+	cmp	rsi, 3
+	jb	.LBB1_737
+.LBB1_472:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 8]
+	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 16]
+	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 24]
+	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_472
+	jmp	.LBB1_737
+.LBB1_58:
 	cmp	edi, 8
-	jle	.LBB1_93
-# %bb.44:
+	jle	.LBB1_100
+# %bb.59:
 	cmp	edi, 9
-	je	.LBB1_122
-# %bb.45:
+	je	.LBB1_147
+# %bb.60:
 	cmp	edi, 11
-	je	.LBB1_125
-# %bb.46:
+	je	.LBB1_150
+# %bb.61:
 	cmp	edi, 12
-	jne	.LBB1_3
-# %bb.47:
+	jne	.LBB1_737
+# %bb.62:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.48:
+	jle	.LBB1_737
+# %bb.63:
 	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	r11d, r9d
+	mov	eax, r9d
 	cmp	r9d, 16
-	jb	.LBB1_49
-# %bb.227:
-	lea	rax, [rdx + 8*r11]
-	cmp	rax, r8
-	jbe	.LBB1_287
-# %bb.228:
-	lea	rax, [r8 + 8*r11]
-	cmp	rax, rdx
-	jbe	.LBB1_287
-.LBB1_49:
-	xor	esi, esi
-.LBB1_670:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB1_672
-.LBB1_671:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_671
-.LBB1_672:
-	cmp	rax, 3
-	jb	.LBB1_3
-.LBB1_673:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB1_673
-	jmp	.LBB1_3
-.LBB1_50:
-	cmp	edi, 2
-	je	.LBB1_82
-# %bb.51:
-	cmp	edi, 3
-	jne	.LBB1_517
-# %bb.52:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.53:
-	mov	al, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_54
-# %bb.140:
-	lea	rcx, [rdx + r10]
+	jb	.LBB1_64
+# %bb.198:
+	lea	rcx, [rdx + 8*rax]
 	cmp	rcx, r8
-	jbe	.LBB1_200
-# %bb.141:
-	lea	rcx, [r8 + r10]
+	jbe	.LBB1_318
+# %bb.199:
+	lea	rcx, [r8 + 8*rax]
 	cmp	rcx, rdx
-	jbe	.LBB1_200
-.LBB1_54:
-	xor	esi, esi
-.LBB1_334:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_336
-	.p2align	4, 0x90
-.LBB1_335:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, byte ptr [rdx + rsi]
-	sub	bl, al
-	mov	byte ptr [r8 + rsi], bl
+	jbe	.LBB1_318
+.LBB1_64:
+	xor	ecx, ecx
+.LBB1_477:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_479
+.LBB1_478:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_478
+.LBB1_479:
+	cmp	rsi, 3
+	jb	.LBB1_737
+.LBB1_480:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
+	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_480
+	jmp	.LBB1_737
+.LBB1_65:
+	cmp	edi, 2
+	je	.LBB1_153
+# %bb.66:
+	cmp	edi, 3
+	jne	.LBB1_737
+# %bb.67:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.68:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_69
+# %bb.201:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_321
+# %bb.202:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_321
+.LBB1_69:
+	xor	esi, esi
+.LBB1_485:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_487
+.LBB1_486:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
 	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_335
-.LBB1_336:
-	cmp	rdi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_337:                              # =>This Inner Loop Header: Depth=1
+	add	rdi, -1
+	jne	.LBB1_486
+.LBB1_487:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_488:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_488
+	jmp	.LBB1_737
+.LBB1_70:
+	cmp	edi, 2
+	je	.LBB1_156
+# %bb.71:
+	cmp	edi, 3
+	jne	.LBB1_737
+# %bb.72:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.73:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_74
+# %bb.204:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_324
+# %bb.205:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_324
+.LBB1_74:
+	xor	esi, esi
+.LBB1_493:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_495
+.LBB1_494:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_494
+.LBB1_495:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_496:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
 	sub	cl, al
 	mov	byte ptr [r8 + rsi], cl
@@ -4133,1589 +4236,1919 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	mov	byte ptr [r8 + rsi + 3], cl
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_337
-	jmp	.LBB1_517
-.LBB1_55:
+	jne	.LBB1_496
+	jmp	.LBB1_737
+.LBB1_75:
+	cmp	edi, 2
+	je	.LBB1_159
+# %bb.76:
+	cmp	edi, 3
+	jne	.LBB1_737
+# %bb.77:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.78:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_79
+# %bb.207:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_327
+# %bb.208:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_327
+.LBB1_79:
+	xor	esi, esi
+.LBB1_501:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_503
+.LBB1_502:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_502
+.LBB1_503:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_504:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_504
+	jmp	.LBB1_737
+.LBB1_80:
+	cmp	edi, 2
+	je	.LBB1_162
+# %bb.81:
+	cmp	edi, 3
+	jne	.LBB1_737
+# %bb.82:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.83:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_84
+# %bb.210:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_330
+# %bb.211:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_330
+.LBB1_84:
+	xor	esi, esi
+.LBB1_509:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_511
+.LBB1_510:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_510
+.LBB1_511:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_512:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_512
+	jmp	.LBB1_737
+.LBB1_85:
 	cmp	edi, 7
-	je	.LBB1_85
-# %bb.56:
+	je	.LBB1_165
+# %bb.86:
 	cmp	edi, 8
-	jne	.LBB1_517
-# %bb.57:
+	jne	.LBB1_737
+# %bb.87:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.58:
+	jle	.LBB1_737
+# %bb.88:
 	mov	rax, qword ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jb	.LBB1_59
-# %bb.143:
+	jb	.LBB1_89
+# %bb.213:
 	lea	rcx, [rdx + 8*r10]
 	cmp	rcx, r8
-	jbe	.LBB1_203
-# %bb.144:
+	jbe	.LBB1_333
+# %bb.214:
 	lea	rcx, [r8 + 8*r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_203
-.LBB1_59:
+	jbe	.LBB1_333
+.LBB1_89:
 	xor	esi, esi
-.LBB1_342:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_344
-	.p2align	4, 0x90
-.LBB1_343:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, qword ptr [rdx + 8*rsi]
-	sub	rbx, rax
-	mov	qword ptr [r8 + 8*rsi], rbx
+.LBB1_517:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_519
+.LBB1_518:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_343
-.LBB1_344:
-	cmp	rdi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_345:                              # =>This Inner Loop Header: Depth=1
+	add	rdi, -1
+	jne	.LBB1_518
+.LBB1_519:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_520:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 8], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 16], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_345
-	jmp	.LBB1_517
-.LBB1_60:
-	cmp	edi, 2
-	je	.LBB1_110
-# %bb.61:
-	cmp	edi, 3
-	jne	.LBB1_474
-# %bb.62:
+	jne	.LBB1_520
+	jmp	.LBB1_737
+.LBB1_90:
+	cmp	edi, 7
+	je	.LBB1_168
+# %bb.91:
+	cmp	edi, 8
+	jne	.LBB1_737
+# %bb.92:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.63:
-	mov	r14b, byte ptr [rcx]
+	jle	.LBB1_737
+# %bb.93:
+	mov	rax, qword ptr [rcx]
 	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_64
-# %bb.170:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_260
-# %bb.171:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_260
-.LBB1_64:
-	xor	esi, esi
-.LBB1_414:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_416
-	.p2align	4, 0x90
-.LBB1_415:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
+	cmp	r9d, 16
+	jb	.LBB1_94
+# %bb.216:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_336
+# %bb.217:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_336
+.LBB1_94:
+	xor	esi, esi
+.LBB1_525:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_527
+.LBB1_526:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_415
-.LBB1_416:
-	cmp	r11, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_417:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
+	add	rdi, -1
+	jne	.LBB1_526
+.LBB1_527:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_528:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_417
-	jmp	.LBB1_474
-.LBB1_65:
+	jne	.LBB1_528
+	jmp	.LBB1_737
+.LBB1_95:
 	cmp	edi, 7
-	je	.LBB1_113
-# %bb.66:
+	je	.LBB1_171
+# %bb.96:
 	cmp	edi, 8
-	jne	.LBB1_474
-# %bb.67:
+	jne	.LBB1_737
+# %bb.97:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.68:
-	mov	r14, qword ptr [rcx]
+	jle	.LBB1_737
+# %bb.98:
+	mov	rax, qword ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jb	.LBB1_69
-# %bb.173:
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB1_263
-# %bb.174:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_263
-.LBB1_69:
+	jb	.LBB1_99
+# %bb.219:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_339
+# %bb.220:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_339
+.LBB1_99:
+	xor	esi, esi
+.LBB1_533:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_535
+.LBB1_534:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_534
+.LBB1_535:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_536:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_536
+	jmp	.LBB1_737
+.LBB1_100:
+	cmp	edi, 7
+	je	.LBB1_174
+# %bb.101:
+	cmp	edi, 8
+	jne	.LBB1_737
+# %bb.102:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.103:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB1_104
+# %bb.222:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_342
+# %bb.223:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_342
+.LBB1_104:
 	xor	esi, esi
-.LBB1_422:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_424
-	.p2align	4, 0x90
-.LBB1_423:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
+.LBB1_541:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_543
+.LBB1_542:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_423
-.LBB1_424:
-	cmp	r11, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_425:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rdi, -1
+	jne	.LBB1_542
+.LBB1_543:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_544:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_425
-	jmp	.LBB1_474
-.LBB1_70:
+	jne	.LBB1_544
+	jmp	.LBB1_737
+.LBB1_105:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.71:
+	jle	.LBB1_737
+# %bb.106:
 	movzx	eax, word ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jb	.LBB1_72
-# %bb.146:
+	jb	.LBB1_107
+# %bb.225:
 	lea	rcx, [rdx + 2*r10]
 	cmp	rcx, r8
-	jbe	.LBB1_206
-# %bb.147:
+	jbe	.LBB1_345
+# %bb.226:
 	lea	rcx, [r8 + 2*r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_206
-.LBB1_72:
+	jbe	.LBB1_345
+.LBB1_107:
 	xor	esi, esi
-.LBB1_350:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
+.LBB1_549:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rcx, r10
 	and	rcx, 3
-	je	.LBB1_352
-	.p2align	4, 0x90
-.LBB1_351:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rdx + 2*rsi]
-	sub	ebx, eax
-	mov	word ptr [r8 + 2*rsi], bx
+	je	.LBB1_551
+.LBB1_550:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	add	di, ax
+	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rcx, -1
-	jne	.LBB1_351
-.LBB1_352:
-	cmp	rdi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_353:                              # =>This Inner Loop Header: Depth=1
+	jne	.LBB1_550
+.LBB1_551:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_552:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 2], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 4], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_353
-	jmp	.LBB1_517
-.LBB1_73:
+	jne	.LBB1_552
+	jmp	.LBB1_737
+.LBB1_108:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.74:
+	jle	.LBB1_737
+# %bb.109:
 	movzx	eax, word ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jb	.LBB1_75
-# %bb.149:
+	jb	.LBB1_110
+# %bb.228:
 	lea	rcx, [rdx + 2*r10]
 	cmp	rcx, r8
-	jbe	.LBB1_209
-# %bb.150:
+	jbe	.LBB1_348
+# %bb.229:
 	lea	rcx, [r8 + 2*r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_209
-.LBB1_75:
+	jbe	.LBB1_348
+.LBB1_110:
 	xor	esi, esi
-.LBB1_358:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
+.LBB1_557:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rcx, r10
 	and	rcx, 3
-	je	.LBB1_360
-	.p2align	4, 0x90
-.LBB1_359:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rdx + 2*rsi]
-	sub	ebx, eax
-	mov	word ptr [r8 + 2*rsi], bx
+	je	.LBB1_559
+.LBB1_558:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	add	di, ax
+	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rcx, -1
-	jne	.LBB1_359
-.LBB1_360:
-	cmp	rdi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_361:                              # =>This Inner Loop Header: Depth=1
+	jne	.LBB1_558
+.LBB1_559:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_560:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 2], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 4], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_361
-	jmp	.LBB1_517
-.LBB1_76:
+	jne	.LBB1_560
+	jmp	.LBB1_737
+.LBB1_111:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.77:
-	mov	rax, qword ptr [rcx]
+	jle	.LBB1_737
+# %bb.112:
+	movzx	eax, word ptr [rcx]
 	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_78
-# %bb.152:
-	lea	rcx, [rdx + 8*r10]
+	cmp	r9d, 32
+	jb	.LBB1_113
+# %bb.231:
+	lea	rcx, [rdx + 2*r10]
 	cmp	rcx, r8
-	jbe	.LBB1_212
-# %bb.153:
-	lea	rcx, [r8 + 8*r10]
+	jbe	.LBB1_351
+# %bb.232:
+	lea	rcx, [r8 + 2*r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_212
-.LBB1_78:
+	jbe	.LBB1_351
+.LBB1_113:
 	xor	esi, esi
-.LBB1_366:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
+.LBB1_565:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rcx, r10
 	and	rcx, 3
-	je	.LBB1_368
-	.p2align	4, 0x90
-.LBB1_367:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, qword ptr [rdx + 8*rsi]
-	sub	rbx, rax
-	mov	qword ptr [r8 + 8*rsi], rbx
+	je	.LBB1_567
+.LBB1_566:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	edi, eax
+	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rcx, -1
-	jne	.LBB1_367
-.LBB1_368:
-	cmp	rdi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_369:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	jne	.LBB1_566
+.LBB1_567:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_568:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_369
-	jmp	.LBB1_517
-.LBB1_79:
+	jne	.LBB1_568
+	jmp	.LBB1_737
+.LBB1_114:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.80:
-	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
+	jle	.LBB1_737
+# %bb.115:
+	movzx	eax, word ptr [rcx]
+	mov	r10d, r9d
 	cmp	r9d, 32
-	jb	.LBB1_81
-# %bb.155:
-	lea	rcx, [rdx + 4*rax]
+	jb	.LBB1_116
+# %bb.234:
+	lea	rcx, [rdx + 2*r10]
 	cmp	rcx, r8
-	jbe	.LBB1_215
-# %bb.156:
-	lea	rcx, [r8 + 4*rax]
+	jbe	.LBB1_354
+# %bb.235:
+	lea	rcx, [r8 + 2*r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_215
-.LBB1_81:
-	xor	ecx, ecx
-.LBB1_374:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB1_376
-	.p2align	4, 0x90
-.LBB1_375:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
-	add	rdi, -1
-	jne	.LBB1_375
-.LBB1_376:
-	cmp	rsi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_377:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_377
-	jmp	.LBB1_517
-.LBB1_82:
+	jbe	.LBB1_354
+.LBB1_116:
+	xor	esi, esi
+.LBB1_573:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_575
+.LBB1_574:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	edi, eax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rcx, -1
+	jne	.LBB1_574
+.LBB1_575:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_576:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_576
+	jmp	.LBB1_737
+.LBB1_117:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.83:
-	mov	al, byte ptr [rcx]
+	jle	.LBB1_737
+# %bb.118:
+	movzx	eax, word ptr [rcx]
 	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_84
-# %bb.158:
-	lea	rcx, [rdx + r10]
+	cmp	r9d, 32
+	jb	.LBB1_119
+# %bb.237:
+	lea	rcx, [rdx + 2*r10]
 	cmp	rcx, r8
-	jbe	.LBB1_218
-# %bb.159:
-	lea	rcx, [r8 + r10]
+	jbe	.LBB1_357
+# %bb.238:
+	lea	rcx, [r8 + 2*r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_218
-.LBB1_84:
+	jbe	.LBB1_357
+.LBB1_119:
 	xor	esi, esi
-.LBB1_382:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
+.LBB1_581:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rcx, r10
 	and	rcx, 3
-	je	.LBB1_384
-	.p2align	4, 0x90
-.LBB1_383:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, byte ptr [rdx + rsi]
-	sub	bl, al
-	mov	byte ptr [r8 + rsi], bl
+	je	.LBB1_583
+.LBB1_582:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	add	di, ax
+	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rcx, -1
-	jne	.LBB1_383
-.LBB1_384:
-	cmp	rdi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_385:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
+	jne	.LBB1_582
+.LBB1_583:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_584:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_385
-	jmp	.LBB1_517
-.LBB1_85:
+	jne	.LBB1_584
+	jmp	.LBB1_737
+.LBB1_120:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.86:
-	mov	eax, dword ptr [rcx]
+	jle	.LBB1_737
+# %bb.121:
+	movzx	eax, word ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jb	.LBB1_87
-# %bb.161:
-	lea	rcx, [rdx + 4*r10]
+	jb	.LBB1_122
+# %bb.240:
+	lea	rcx, [rdx + 2*r10]
 	cmp	rcx, r8
-	jbe	.LBB1_221
-# %bb.162:
-	lea	rcx, [r8 + 4*r10]
+	jbe	.LBB1_360
+# %bb.241:
+	lea	rcx, [r8 + 2*r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_221
-.LBB1_87:
+	jbe	.LBB1_360
+.LBB1_122:
 	xor	esi, esi
-.LBB1_390:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
+.LBB1_589:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rcx, r10
 	and	rcx, 3
-	je	.LBB1_392
-	.p2align	4, 0x90
-.LBB1_391:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, dword ptr [rdx + 4*rsi]
-	sub	ebx, eax
-	mov	dword ptr [r8 + 4*rsi], ebx
+	je	.LBB1_591
+.LBB1_590:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	add	di, ax
+	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rcx, -1
-	jne	.LBB1_391
-.LBB1_392:
-	cmp	rdi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_393:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_393
-	jmp	.LBB1_517
-.LBB1_88:
-	cmp	edi, 2
-	je	.LBB1_128
-# %bb.89:
-	cmp	edi, 3
-	jne	.LBB1_3
-# %bb.90:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.91:
-	mov	r14b, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_92
-# %bb.230:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_290
-# %bb.231:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_290
-.LBB1_92:
-	xor	esi, esi
-.LBB1_678:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_680
-.LBB1_679:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_679
-.LBB1_680:
-	cmp	r11, 3
-	jb	.LBB1_3
-.LBB1_681:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_681
-	jmp	.LBB1_3
-.LBB1_93:
-	cmp	edi, 7
-	je	.LBB1_131
-# %bb.94:
-	cmp	edi, 8
-	jne	.LBB1_3
-# %bb.95:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.96:
-	mov	r14, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_97
-# %bb.233:
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB1_293
-# %bb.234:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_293
-.LBB1_97:
-	xor	esi, esi
-.LBB1_686:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_688
-.LBB1_687:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_687
-.LBB1_688:
-	cmp	r11, 3
-	jb	.LBB1_3
-.LBB1_689:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
+	jne	.LBB1_590
+.LBB1_591:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_592:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_689
-	jmp	.LBB1_3
-.LBB1_98:
+	jne	.LBB1_592
+	jmp	.LBB1_737
+.LBB1_123:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.99:
-	movzx	r14d, word ptr [rcx]
+	jle	.LBB1_737
+# %bb.124:
+	movzx	eax, word ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jb	.LBB1_100
-# %bb.176:
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB1_266
-# %bb.177:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_266
-.LBB1_100:
+	jb	.LBB1_125
+# %bb.243:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_363
+# %bb.244:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_363
+.LBB1_125:
 	xor	esi, esi
-.LBB1_430:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB1_432
-	.p2align	4, 0x90
-.LBB1_431:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rdx + 2*rsi]
-	add	bx, r14w
-	mov	word ptr [r8 + 2*rsi], bx
+.LBB1_597:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_599
+.LBB1_598:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	edi, eax
+	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
-	add	rax, -1
-	jne	.LBB1_431
-.LBB1_432:
-	cmp	r11, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_433:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rcx, -1
+	jne	.LBB1_598
+.LBB1_599:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_600:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_433
-	jmp	.LBB1_474
-.LBB1_101:
+	jne	.LBB1_600
+	jmp	.LBB1_737
+.LBB1_126:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.102:
-	movzx	r14d, word ptr [rcx]
+	jle	.LBB1_737
+# %bb.127:
+	movzx	eax, word ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jb	.LBB1_103
-# %bb.179:
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB1_269
-# %bb.180:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_269
-.LBB1_103:
+	jb	.LBB1_128
+# %bb.246:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_366
+# %bb.247:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_366
+.LBB1_128:
 	xor	esi, esi
-.LBB1_438:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB1_440
-	.p2align	4, 0x90
-.LBB1_439:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rdx + 2*rsi]
-	add	bx, r14w
-	mov	word ptr [r8 + 2*rsi], bx
+.LBB1_605:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rcx, r10
+	and	rcx, 3
+	je	.LBB1_607
+.LBB1_606:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	edi, eax
+	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
-	add	rax, -1
-	jne	.LBB1_439
-.LBB1_440:
-	cmp	r11, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_441:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rcx, -1
+	jne	.LBB1_606
+.LBB1_607:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_608:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_441
-	jmp	.LBB1_474
-.LBB1_104:
+	jne	.LBB1_608
+	jmp	.LBB1_737
+.LBB1_129:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.105:
-	mov	r14, qword ptr [rcx]
+	jle	.LBB1_737
+# %bb.130:
+	mov	rax, qword ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jb	.LBB1_106
-# %bb.182:
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB1_272
-# %bb.183:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_272
-.LBB1_106:
-	xor	esi, esi
-.LBB1_446:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_448
-	.p2align	4, 0x90
-.LBB1_447:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
+	jb	.LBB1_131
+# %bb.249:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_369
+# %bb.250:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_369
+.LBB1_131:
+	xor	esi, esi
+.LBB1_613:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_615
+.LBB1_614:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_447
-.LBB1_448:
-	cmp	r11, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_449:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rdi, -1
+	jne	.LBB1_614
+.LBB1_615:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_616:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_449
-	jmp	.LBB1_474
-.LBB1_107:
+	jne	.LBB1_616
+	jmp	.LBB1_737
+.LBB1_132:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.108:
+	jle	.LBB1_737
+# %bb.133:
 	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	r11d, r9d
+	mov	eax, r9d
 	cmp	r9d, 32
-	jb	.LBB1_109
-# %bb.185:
-	lea	rax, [rdx + 4*r11]
-	cmp	rax, r8
-	jbe	.LBB1_275
-# %bb.186:
-	lea	rax, [r8 + 4*r11]
-	cmp	rax, rdx
-	jbe	.LBB1_275
-.LBB1_109:
-	xor	esi, esi
-.LBB1_454:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB1_456
-	.p2align	4, 0x90
-.LBB1_455:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_455
-.LBB1_456:
-	cmp	rax, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_457:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB1_457
-	jmp	.LBB1_474
-.LBB1_110:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.111:
-	mov	r14b, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_112
-# %bb.188:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_278
-# %bb.189:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_278
-.LBB1_112:
-	xor	esi, esi
-.LBB1_462:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_464
-	.p2align	4, 0x90
-.LBB1_463:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_463
-.LBB1_464:
-	cmp	r11, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_465:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_465
-	jmp	.LBB1_474
-.LBB1_113:
+	jb	.LBB1_134
+# %bb.252:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_372
+# %bb.253:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_372
+.LBB1_134:
+	xor	ecx, ecx
+.LBB1_621:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_623
+.LBB1_622:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_622
+.LBB1_623:
+	cmp	rsi, 3
+	jb	.LBB1_737
+.LBB1_624:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 4]
+	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 8]
+	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 12]
+	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_624
+	jmp	.LBB1_737
+.LBB1_135:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.114:
-	mov	r14d, dword ptr [rcx]
+	jle	.LBB1_737
+# %bb.136:
+	mov	rax, qword ptr [rcx]
 	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_115
-# %bb.191:
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB1_281
-# %bb.192:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_281
-.LBB1_115:
-	xor	esi, esi
-.LBB1_470:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_472
-	.p2align	4, 0x90
-.LBB1_471:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
+	cmp	r9d, 16
+	jb	.LBB1_137
+# %bb.255:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_375
+# %bb.256:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_375
+.LBB1_137:
+	xor	esi, esi
+.LBB1_629:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_631
+.LBB1_630:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_471
-.LBB1_472:
-	cmp	r11, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_473:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rdi, -1
+	jne	.LBB1_630
+.LBB1_631:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_632:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_473
-	jmp	.LBB1_474
-.LBB1_116:
+	jne	.LBB1_632
+	jmp	.LBB1_737
+.LBB1_138:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.117:
-	movzx	r14d, word ptr [rcx]
-	mov	r10d, r9d
+	jle	.LBB1_737
+# %bb.139:
+	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
 	cmp	r9d, 32
-	jb	.LBB1_118
-# %bb.236:
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB1_296
-# %bb.237:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_296
-.LBB1_118:
-	xor	esi, esi
-.LBB1_694:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB1_696
-.LBB1_695:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rdx + 2*rsi]
-	add	bx, r14w
-	mov	word ptr [r8 + 2*rsi], bx
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB1_695
-.LBB1_696:
-	cmp	r11, 3
-	jb	.LBB1_3
-.LBB1_697:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_697
-	jmp	.LBB1_3
-.LBB1_119:
+	jb	.LBB1_140
+# %bb.258:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_378
+# %bb.259:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_378
+.LBB1_140:
+	xor	ecx, ecx
+.LBB1_637:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_639
+.LBB1_638:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_638
+.LBB1_639:
+	cmp	rsi, 3
+	jb	.LBB1_737
+.LBB1_640:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_640
+	jmp	.LBB1_737
+.LBB1_141:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.120:
-	movzx	r14d, word ptr [rcx]
+	jle	.LBB1_737
+# %bb.142:
+	mov	rax, qword ptr [rcx]
 	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_121
-# %bb.239:
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB1_299
-# %bb.240:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_299
-.LBB1_121:
+	cmp	r9d, 16
+	jb	.LBB1_143
+# %bb.261:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_381
+# %bb.262:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_381
+.LBB1_143:
 	xor	esi, esi
-.LBB1_702:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB1_704
-.LBB1_703:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rdx + 2*rsi]
-	add	bx, r14w
-	mov	word ptr [r8 + 2*rsi], bx
+.LBB1_645:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_647
+.LBB1_646:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
-	add	rax, -1
-	jne	.LBB1_703
-.LBB1_704:
-	cmp	r11, 3
-	jb	.LBB1_3
-.LBB1_705:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rdi, -1
+	jne	.LBB1_646
+.LBB1_647:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_648:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_705
-	jmp	.LBB1_3
-.LBB1_122:
+	jne	.LBB1_648
+	jmp	.LBB1_737
+.LBB1_144:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.123:
-	mov	r14, qword ptr [rcx]
+	jle	.LBB1_737
+# %bb.145:
+	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB1_146
+# %bb.264:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_384
+# %bb.265:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_384
+.LBB1_146:
+	xor	ecx, ecx
+.LBB1_653:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_655
+.LBB1_654:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_654
+.LBB1_655:
+	cmp	rsi, 3
+	jb	.LBB1_737
+.LBB1_656:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 4]
+	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 8]
+	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 12]
+	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_656
+	jmp	.LBB1_737
+.LBB1_147:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.148:
+	mov	rax, qword ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jb	.LBB1_124
-# %bb.242:
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB1_302
-# %bb.243:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_302
-.LBB1_124:
-	xor	esi, esi
-.LBB1_710:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_712
-.LBB1_711:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
+	jb	.LBB1_149
+# %bb.267:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_387
+# %bb.268:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_387
+.LBB1_149:
+	xor	esi, esi
+.LBB1_661:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_663
+.LBB1_662:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_711
-.LBB1_712:
-	cmp	r11, 3
-	jb	.LBB1_3
-.LBB1_713:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rdi, -1
+	jne	.LBB1_662
+.LBB1_663:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_664:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_713
-	jmp	.LBB1_3
-.LBB1_125:
+	jne	.LBB1_664
+	jmp	.LBB1_737
+.LBB1_150:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.126:
+	jle	.LBB1_737
+# %bb.151:
 	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	r11d, r9d
+	mov	eax, r9d
 	cmp	r9d, 32
-	jb	.LBB1_127
-# %bb.245:
-	lea	rax, [rdx + 4*r11]
-	cmp	rax, r8
-	jbe	.LBB1_305
-# %bb.246:
-	lea	rax, [r8 + 4*r11]
-	cmp	rax, rdx
-	jbe	.LBB1_305
-.LBB1_127:
-	xor	esi, esi
-.LBB1_718:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB1_720
-.LBB1_719:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_719
-.LBB1_720:
-	cmp	rax, 3
-	jb	.LBB1_3
-.LBB1_721:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB1_721
-	jmp	.LBB1_3
-.LBB1_128:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.129:
-	mov	r14b, byte ptr [rcx]
+	jb	.LBB1_152
+# %bb.270:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_390
+# %bb.271:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_390
+.LBB1_152:
+	xor	ecx, ecx
+.LBB1_669:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_671
+.LBB1_670:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_670
+.LBB1_671:
+	cmp	rsi, 3
+	jb	.LBB1_737
+.LBB1_672:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
+	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_672
+	jmp	.LBB1_737
+.LBB1_153:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.154:
+	mov	al, byte ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 128
-	jb	.LBB1_130
-# %bb.248:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_308
-# %bb.249:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_308
-.LBB1_130:
-	xor	esi, esi
-.LBB1_726:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_728
-.LBB1_727:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
+	jb	.LBB1_155
+# %bb.273:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_393
+# %bb.274:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_393
+.LBB1_155:
+	xor	esi, esi
+.LBB1_677:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_679
+.LBB1_678:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_727
-.LBB1_728:
-	cmp	r11, 3
-	jb	.LBB1_3
-.LBB1_729:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
+	add	rdi, -1
+	jne	.LBB1_678
+.LBB1_679:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_680:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_729
-	jmp	.LBB1_3
-.LBB1_131:
+	jne	.LBB1_680
+	jmp	.LBB1_737
+.LBB1_156:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.132:
-	mov	r14d, dword ptr [rcx]
+	jle	.LBB1_737
+# %bb.157:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_158
+# %bb.276:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_396
+# %bb.277:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_396
+.LBB1_158:
+	xor	esi, esi
+.LBB1_685:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_687
+.LBB1_686:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_686
+.LBB1_687:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_688:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_688
+	jmp	.LBB1_737
+.LBB1_159:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.160:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_161
+# %bb.279:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_399
+# %bb.280:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_399
+.LBB1_161:
+	xor	esi, esi
+.LBB1_693:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_695
+.LBB1_694:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_694
+.LBB1_695:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_696:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_696
+	jmp	.LBB1_737
+.LBB1_162:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.163:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB1_164
+# %bb.282:
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_402
+# %bb.283:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_402
+.LBB1_164:
+	xor	esi, esi
+.LBB1_701:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_703
+.LBB1_702:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_702
+.LBB1_703:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_704:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_704
+	jmp	.LBB1_737
+.LBB1_165:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.166:
+	mov	eax, dword ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jb	.LBB1_133
-# %bb.251:
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB1_311
-# %bb.252:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_311
-.LBB1_133:
-	xor	esi, esi
-.LBB1_734:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_736
-.LBB1_735:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
+	jb	.LBB1_167
+# %bb.285:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_405
+# %bb.286:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_405
+.LBB1_167:
+	xor	esi, esi
+.LBB1_709:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_711
+.LBB1_710:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_735
-.LBB1_736:
-	cmp	r11, 3
-	jb	.LBB1_3
-.LBB1_737:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rdi, -1
+	jne	.LBB1_710
+.LBB1_711:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_712:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_737
-	jmp	.LBB1_3
-.LBB1_194:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_314
-# %bb.195:
-	mov	rbx, r9
-	and	rbx, -2
-	neg	rbx
-	xor	edi, edi
-.LBB1_196:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rbx, 2
-	jne	.LBB1_196
-	jmp	.LBB1_315
-.LBB1_197:
-	mov	ecx, eax
-	and	ecx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rcx - 16]
-	mov	rbx, rsi
-	shr	rbx, 4
-	add	rbx, 1
-	test	rsi, rsi
-	je	.LBB1_322
-# %bb.198:
-	mov	rdi, rbx
-	and	rdi, -2
-	neg	rdi
+	jne	.LBB1_712
+	jmp	.LBB1_737
+.LBB1_168:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.169:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_170
+# %bb.288:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_408
+# %bb.289:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_408
+.LBB1_170:
 	xor	esi, esi
-.LBB1_199:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm5, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi + 128]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 160]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 192]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 224]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm5, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 224], ymm5
-	add	rsi, 32
-	add	rdi, 2
-	jne	.LBB1_199
-	jmp	.LBB1_323
-.LBB1_200:
+.LBB1_717:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_719
+.LBB1_718:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_718
+.LBB1_719:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_720:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_720
+	jmp	.LBB1_737
+.LBB1_171:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.172:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_173
+# %bb.291:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_411
+# %bb.292:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_411
+.LBB1_173:
+	xor	esi, esi
+.LBB1_725:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_727
+.LBB1_726:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_726
+.LBB1_727:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_728:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_728
+	jmp	.LBB1_737
+.LBB1_174:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.175:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_176
+# %bb.294:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_414
+# %bb.295:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_414
+.LBB1_176:
+	xor	esi, esi
+.LBB1_733:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_735
+.LBB1_734:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_734
+.LBB1_735:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_736:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_736
+	jmp	.LBB1_737
+.LBB1_297:
 	mov	esi, r10d
-	and	esi, -128
+	and	esi, -32
 	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rcx, [rsi - 128]
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
 	mov	r9, rcx
-	shr	r9, 7
+	shr	r9, 5
 	add	r9, 1
 	test	rcx, rcx
-	je	.LBB1_330
-# %bb.201:
-	mov	rbx, r9
-	and	rbx, -2
-	neg	rbx
+	je	.LBB1_417
+# %bb.298:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
 	xor	edi, edi
-.LBB1_202:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
-	add	rdi, 256
-	add	rbx, 2
-	jne	.LBB1_202
-	jmp	.LBB1_331
-.LBB1_203:
+.LBB1_299:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_299
+	jmp	.LBB1_418
+.LBB1_300:
 	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
 	mov	r9, rcx
-	shr	r9, 4
+	shr	r9, 5
 	add	r9, 1
 	test	rcx, rcx
-	je	.LBB1_338
-# %bb.204:
-	mov	rbx, r9
-	and	rbx, -2
-	neg	rbx
+	je	.LBB1_425
+# %bb.301:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
 	xor	edi, edi
-.LBB1_205:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
-	add	rdi, 32
-	add	rbx, 2
-	jne	.LBB1_205
-	jmp	.LBB1_339
-.LBB1_206:
+.LBB1_302:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_302
+	jmp	.LBB1_426
+.LBB1_303:
 	mov	esi, r10d
 	and	esi, -32
 	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
+	vpbroadcastd	ymm0, xmm0
 	lea	rcx, [rsi - 32]
 	mov	r9, rcx
 	shr	r9, 5
 	add	r9, 1
 	test	rcx, rcx
-	je	.LBB1_346
-# %bb.207:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB1_208:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx + 64]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 96]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
-	add	rbx, 64
-	add	rdi, 2
-	jne	.LBB1_208
-	jmp	.LBB1_347
-.LBB1_209:
+	je	.LBB1_433
+# %bb.304:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_305:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_305
+	jmp	.LBB1_434
+.LBB1_306:
 	mov	esi, r10d
 	and	esi, -32
 	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
+	vpbroadcastd	ymm0, xmm0
 	lea	rcx, [rsi - 32]
 	mov	r9, rcx
 	shr	r9, 5
 	add	r9, 1
 	test	rcx, rcx
-	je	.LBB1_354
-# %bb.210:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB1_211:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx + 64]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 96]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
-	add	rbx, 64
-	add	rdi, 2
-	jne	.LBB1_211
-	jmp	.LBB1_355
-.LBB1_212:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, rax
-	vpbroadcastq	ymm0, xmm0
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_362
-# %bb.213:
-	mov	rbx, r9
-	and	rbx, -2
-	neg	rbx
+	je	.LBB1_441
+# %bb.307:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
 	xor	edi, edi
-.LBB1_214:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+.LBB1_308:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_308
+	jmp	.LBB1_442
+.LBB1_309:
+	mov	ecx, eax
+	and	ecx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rcx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_449
+# %bb.310:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_311:                              # =>This Inner Loop Header: Depth=1
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
+	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 160]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 192]
+	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
 	add	rdi, 32
-	add	rbx, 2
-	jne	.LBB1_214
-	jmp	.LBB1_363
-.LBB1_215:
+	add	rsi, 2
+	jne	.LBB1_311
+	jmp	.LBB1_450
+.LBB1_312:
 	mov	ecx, eax
-	and	ecx, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rsi, [rcx - 32]
-	mov	rbx, rsi
-	shr	rbx, 5
-	add	rbx, 1
+	and	ecx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rcx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
 	test	rsi, rsi
-	je	.LBB1_370
-# %bb.216:
-	mov	rdi, rbx
+	je	.LBB1_457
+# %bb.313:
+	mov	rdi, r9
 	and	rdi, -2
 	neg	rdi
 	xor	esi, esi
-.LBB1_217:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm5, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi + 128]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 160]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 192]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 224]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm5, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 224], ymm5
-	add	rsi, 64
+.LBB1_314:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm5, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi + 128]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 160]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 192]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 224]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm5, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 224], ymm5
+	add	rsi, 32
+	add	rdi, 2
+	jne	.LBB1_314
+	jmp	.LBB1_458
+.LBB1_315:
+	mov	ecx, eax
+	and	ecx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rcx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_465
+# %bb.316:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_317:                              # =>This Inner Loop Header: Depth=1
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
+	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 160]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 192]
+	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rsi, 2
+	jne	.LBB1_317
+	jmp	.LBB1_466
+.LBB1_318:
+	mov	ecx, eax
+	and	ecx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rcx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_473
+# %bb.319:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
+.LBB1_320:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm5, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi + 128]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 160]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 192]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 224]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm5, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 224], ymm5
+	add	rsi, 32
 	add	rdi, 2
-	jne	.LBB1_217
-	jmp	.LBB1_371
-.LBB1_218:
+	jne	.LBB1_320
+	jmp	.LBB1_474
+.LBB1_321:
 	mov	esi, r10d
 	and	esi, -128
 	vmovd	xmm0, eax
@@ -5725,13 +6158,50 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	shr	r9, 7
 	add	r9, 1
 	test	rcx, rcx
-	je	.LBB1_378
-# %bb.219:
-	mov	rbx, r9
-	and	rbx, -2
-	neg	rbx
+	je	.LBB1_481
+# %bb.322:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_323:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rcx, 2
+	jne	.LBB1_323
+	jmp	.LBB1_482
+.LBB1_324:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rcx, [rsi - 128]
+	mov	r9, rcx
+	shr	r9, 7
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_489
+# %bb.325:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
 	xor	edi, edi
-.LBB1_220:                              # =>This Inner Loop Header: Depth=1
+.LBB1_326:                              # =>This Inner Loop Header: Depth=1
 	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
 	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
 	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
@@ -5757,808 +6227,63 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
 	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
 	add	rdi, 256
-	add	rbx, 2
-	jne	.LBB1_220
-	jmp	.LBB1_379
-.LBB1_221:
+	add	rcx, 2
+	jne	.LBB1_326
+	jmp	.LBB1_490
+.LBB1_327:
 	mov	esi, r10d
-	and	esi, -32
+	and	esi, -128
 	vmovd	xmm0, eax
-	vpbroadcastd	ymm0, xmm0
-	lea	rcx, [rsi - 32]
+	vpbroadcastb	ymm0, xmm0
+	lea	rcx, [rsi - 128]
 	mov	r9, rcx
-	shr	r9, 5
+	shr	r9, 7
 	add	r9, 1
 	test	rcx, rcx
-	je	.LBB1_386
-# %bb.222:
-	mov	rbx, r9
-	and	rbx, -2
-	neg	rbx
+	je	.LBB1_497
+# %bb.328:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
 	xor	edi, edi
-.LBB1_223:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
-	add	rdi, 64
-	add	rbx, 2
-	jne	.LBB1_223
-	jmp	.LBB1_387
-.LBB1_254:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastd	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_394
-# %bb.255:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_256:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_256
-	jmp	.LBB1_395
-.LBB1_257:
-	mov	esi, r11d
-	and	esi, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rax, [rsi - 16]
-	mov	r10, rax
-	shr	r10, 4
-	add	r10, 1
-	test	rax, rax
-	je	.LBB1_402
-# %bb.258:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_259:                              # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rbx]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rbx + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rbx + 64]
-	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rbx + 96]
-	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm5
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rbx + 128]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rbx + 160]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rbx + 192]
-	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rbx + 224]
-	vmovupd	ymmword ptr [r8 + 8*rbx + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rbx + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rbx + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rbx + 224], ymm5
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB1_259
-	jmp	.LBB1_403
-.LBB1_260:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	lea	rax, [rsi - 128]
-	mov	r11, rax
-	shr	r11, 7
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_410
-# %bb.261:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_262:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rbx + 224]
-	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
-	add	rbx, 256
-	add	rax, 2
-	jne	.LBB1_262
-	jmp	.LBB1_411
-.LBB1_263:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r14
-	vpbroadcastq	ymm0, xmm0
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_418
-# %bb.264:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_265:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB1_265
-	jmp	.LBB1_419
-.LBB1_266:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastw	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_426
-# %bb.267:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_268:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_268
-	jmp	.LBB1_427
-.LBB1_269:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastw	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_434
-# %bb.270:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_271:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_271
-	jmp	.LBB1_435
-.LBB1_272:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r14
-	vpbroadcastq	ymm0, xmm0
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_442
-# %bb.273:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_274:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB1_274
-	jmp	.LBB1_443
-.LBB1_275:
-	mov	esi, r11d
-	and	esi, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rax, [rsi - 32]
-	mov	r10, rax
-	shr	r10, 5
-	add	r10, 1
-	test	rax, rax
-	je	.LBB1_450
-# %bb.276:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_277:                              # =>This Inner Loop Header: Depth=1
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rbx]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rbx + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rbx + 64]
-	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rbx + 96]
-	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
-	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm5
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rbx + 128]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rbx + 160]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rbx + 192]
-	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rbx + 224]
-	vmovups	ymmword ptr [r8 + 4*rbx + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rbx + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rbx + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rbx + 224], ymm5
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_277
-	jmp	.LBB1_451
-.LBB1_278:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	lea	rax, [rsi - 128]
-	mov	r11, rax
-	shr	r11, 7
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_458
-# %bb.279:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_280:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rbx + 224]
-	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
-	add	rbx, 256
-	add	rax, 2
-	jne	.LBB1_280
-	jmp	.LBB1_459
-.LBB1_281:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastd	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_466
-# %bb.282:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_283:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_283
-	jmp	.LBB1_467
-.LBB1_284:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastd	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_658
-# %bb.285:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_286:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_286
-	jmp	.LBB1_659
-.LBB1_287:
-	mov	esi, r11d
-	and	esi, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rax, [rsi - 16]
-	mov	r10, rax
-	shr	r10, 4
-	add	r10, 1
-	test	rax, rax
-	je	.LBB1_666
-# %bb.288:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_289:                              # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rbx]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rbx + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rbx + 64]
-	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rbx + 96]
-	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm5
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rbx + 128]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rbx + 160]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rbx + 192]
-	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rbx + 224]
-	vmovupd	ymmword ptr [r8 + 8*rbx + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rbx + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rbx + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rbx + 224], ymm5
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB1_289
-	jmp	.LBB1_667
-.LBB1_290:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	lea	rax, [rsi - 128]
-	mov	r11, rax
-	shr	r11, 7
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_674
-# %bb.291:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_292:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rbx + 224]
-	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
-	add	rbx, 256
-	add	rax, 2
-	jne	.LBB1_292
-	jmp	.LBB1_675
-.LBB1_293:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r14
-	vpbroadcastq	ymm0, xmm0
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_682
-# %bb.294:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_295:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB1_295
-	jmp	.LBB1_683
-.LBB1_296:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastw	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_690
-# %bb.297:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_298:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_298
-	jmp	.LBB1_691
-.LBB1_299:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastw	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_698
-# %bb.300:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_301:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_301
-	jmp	.LBB1_699
-.LBB1_302:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r14
-	vpbroadcastq	ymm0, xmm0
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_706
-# %bb.303:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_304:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB1_304
-	jmp	.LBB1_707
-.LBB1_305:
-	mov	esi, r11d
-	and	esi, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rax, [rsi - 32]
-	mov	r10, rax
-	shr	r10, 5
-	add	r10, 1
-	test	rax, rax
-	je	.LBB1_714
-# %bb.306:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_307:                              # =>This Inner Loop Header: Depth=1
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rbx]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rbx + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rbx + 64]
-	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rbx + 96]
-	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
-	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm5
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rbx + 128]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rbx + 160]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rbx + 192]
-	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rbx + 224]
-	vmovups	ymmword ptr [r8 + 4*rbx + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rbx + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rbx + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rbx + 224], ymm5
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_307
-	jmp	.LBB1_715
-.LBB1_308:
+.LBB1_329:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rcx, 2
+	jne	.LBB1_329
+	jmp	.LBB1_498
+.LBB1_330:
 	mov	esi, r10d
 	and	esi, -128
-	vmovd	xmm0, r14d
+	vmovd	xmm0, eax
 	vpbroadcastb	ymm0, xmm0
-	lea	rax, [rsi - 128]
-	mov	r11, rax
-	shr	r11, 7
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_722
-# %bb.309:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_310:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rbx + 224]
-	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
-	add	rbx, 256
-	add	rax, 2
-	jne	.LBB1_310
-	jmp	.LBB1_723
-.LBB1_311:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastd	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_730
-# %bb.312:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_313:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_313
-	jmp	.LBB1_731
-.LBB1_314:
-	xor	edi, edi
-.LBB1_315:
-	test	r9b, 1
-	je	.LBB1_317
-# %bb.316:
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_317:
-	cmp	rsi, r10
-	je	.LBB1_517
-	jmp	.LBB1_318
-.LBB1_322:
-	xor	esi, esi
-.LBB1_323:
-	test	bl, 1
-	je	.LBB1_325
-# %bb.324:
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm1, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
-.LBB1_325:
-	cmp	rcx, rax
-	je	.LBB1_517
-	jmp	.LBB1_326
-.LBB1_330:
+	lea	rcx, [rsi - 128]
+	mov	r9, rcx
+	shr	r9, 7
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_505
+# %bb.331:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
 	xor	edi, edi
-.LBB1_331:
-	test	r9b, 1
-	je	.LBB1_333
-# %bb.332:
+.LBB1_332:                              # =>This Inner Loop Header: Depth=1
 	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
 	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
 	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
@@ -6566,21 +6291,81 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	vpsubb	ymm1, ymm1, ymm0
 	vpsubb	ymm2, ymm2, ymm0
 	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm0, ymm4, ymm0
+	vpsubb	ymm4, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rcx, 2
+	jne	.LBB1_332
+	jmp	.LBB1_506
 .LBB1_333:
-	cmp	rsi, r10
-	je	.LBB1_517
-	jmp	.LBB1_334
-.LBB1_338:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_513
+# %bb.334:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
 	xor	edi, edi
-.LBB1_339:
-	test	r9b, 1
-	je	.LBB1_341
-# %bb.340:
+.LBB1_335:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_335
+	jmp	.LBB1_514
+.LBB1_336:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_521
+# %bb.337:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_338:                              # =>This Inner Loop Header: Depth=1
 	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
 	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
 	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
@@ -6588,53 +6373,81 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	vpsubq	ymm1, ymm1, ymm0
 	vpsubq	ymm2, ymm2, ymm0
 	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm0, ymm4, ymm0
+	vpsubq	ymm4, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_341:
-	cmp	rsi, r10
-	je	.LBB1_517
-	jmp	.LBB1_342
-.LBB1_346:
-	xor	ebx, ebx
-.LBB1_347:
-	test	r9b, 1
-	je	.LBB1_349
-# %bb.348:
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm0, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
-.LBB1_349:
-	cmp	rsi, r10
-	je	.LBB1_517
-	jmp	.LBB1_350
-.LBB1_354:
-	xor	ebx, ebx
-.LBB1_355:
-	test	r9b, 1
-	je	.LBB1_357
-# %bb.356:
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm0, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
-.LBB1_357:
-	cmp	rsi, r10
-	je	.LBB1_517
-	jmp	.LBB1_358
-.LBB1_362:
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_338
+	jmp	.LBB1_522
+.LBB1_339:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_529
+# %bb.340:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
 	xor	edi, edi
-.LBB1_363:
-	test	r9b, 1
-	je	.LBB1_365
-# %bb.364:
+.LBB1_341:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_341
+	jmp	.LBB1_530
+.LBB1_342:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_537
+# %bb.343:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_344:                              # =>This Inner Loop Header: Depth=1
 	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
 	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
 	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
@@ -6642,1642 +6455,1691 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	vpsubq	ymm1, ymm1, ymm0
 	vpsubq	ymm2, ymm2, ymm0
 	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm0, ymm4, ymm0
+	vpsubq	ymm4, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
-.LBB1_365:
-	cmp	rsi, r10
-	je	.LBB1_517
-	jmp	.LBB1_366
-.LBB1_370:
-	xor	esi, esi
-.LBB1_371:
-	test	bl, 1
-	je	.LBB1_373
-# %bb.372:
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm1, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
-.LBB1_373:
-	cmp	rcx, rax
-	je	.LBB1_517
-	jmp	.LBB1_374
-.LBB1_378:
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_344
+	jmp	.LBB1_538
+.LBB1_345:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_545
+# %bb.346:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
 	xor	edi, edi
-.LBB1_379:
-	test	r9b, 1
-	je	.LBB1_381
-# %bb.380:
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
-.LBB1_381:
-	cmp	rsi, r10
-	je	.LBB1_517
-	jmp	.LBB1_382
-.LBB1_386:
+.LBB1_347:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_347
+	jmp	.LBB1_546
+.LBB1_348:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_553
+# %bb.349:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
 	xor	edi, edi
-.LBB1_387:
-	test	r9b, 1
-	je	.LBB1_389
-# %bb.388:
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
-.LBB1_389:
-	cmp	rsi, r10
-	je	.LBB1_517
-	jmp	.LBB1_390
-.LBB1_394:
-	xor	ebx, ebx
-.LBB1_395:
-	test	r11b, 1
-	je	.LBB1_397
-# %bb.396:
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
-.LBB1_397:
-	cmp	rsi, r10
-	je	.LBB1_474
-	jmp	.LBB1_398
-.LBB1_402:
-	xor	ebx, ebx
-.LBB1_403:
-	test	r10b, 1
-	je	.LBB1_405
-# %bb.404:
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rbx]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rbx + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rbx + 64]
-	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rbx + 96]
-	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm1
-.LBB1_405:
-	cmp	rsi, r11
-	je	.LBB1_474
-	jmp	.LBB1_406
-.LBB1_410:
-	xor	ebx, ebx
-.LBB1_411:
-	test	r11b, 1
-	je	.LBB1_413
-# %bb.412:
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
-.LBB1_413:
-	cmp	rsi, r10
-	je	.LBB1_474
-	jmp	.LBB1_414
-.LBB1_418:
-	xor	ebx, ebx
-.LBB1_419:
-	test	r11b, 1
-	je	.LBB1_421
-# %bb.420:
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
-.LBB1_421:
-	cmp	rsi, r10
-	je	.LBB1_474
-	jmp	.LBB1_422
-.LBB1_426:
-	xor	ebx, ebx
-.LBB1_427:
-	test	r11b, 1
-	je	.LBB1_429
-# %bb.428:
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
-.LBB1_429:
-	cmp	rsi, r10
-	je	.LBB1_474
-	jmp	.LBB1_430
-.LBB1_434:
-	xor	ebx, ebx
-.LBB1_435:
-	test	r11b, 1
-	je	.LBB1_437
-# %bb.436:
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
-.LBB1_437:
-	cmp	rsi, r10
-	je	.LBB1_474
-	jmp	.LBB1_438
-.LBB1_442:
-	xor	ebx, ebx
-.LBB1_443:
-	test	r11b, 1
-	je	.LBB1_445
-# %bb.444:
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
-.LBB1_445:
-	cmp	rsi, r10
-	je	.LBB1_474
-	jmp	.LBB1_446
-.LBB1_450:
-	xor	ebx, ebx
-.LBB1_451:
-	test	r10b, 1
-	je	.LBB1_453
-# %bb.452:
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rbx]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rbx + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rbx + 64]
-	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rbx + 96]
-	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
-	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm1
-.LBB1_453:
-	cmp	rsi, r11
-	je	.LBB1_474
-	jmp	.LBB1_454
-.LBB1_458:
-	xor	ebx, ebx
-.LBB1_459:
-	test	r11b, 1
-	je	.LBB1_461
-# %bb.460:
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
-.LBB1_461:
-	cmp	rsi, r10
-	je	.LBB1_474
-	jmp	.LBB1_462
-.LBB1_466:
-	xor	ebx, ebx
-.LBB1_467:
-	test	r11b, 1
-	je	.LBB1_469
-# %bb.468:
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
-.LBB1_469:
-	cmp	rsi, r10
-	jne	.LBB1_470
-.LBB1_474:
-	cmp	edi, 6
-	jg	.LBB1_482
-# %bb.475:
-	cmp	edi, 3
-	jle	.LBB1_489
-# %bb.476:
-	cmp	edi, 4
-	je	.LBB1_499
-# %bb.477:
-	cmp	edi, 5
-	je	.LBB1_502
-# %bb.478:
-	cmp	edi, 6
-	jne	.LBB1_13
-# %bb.479:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.480:
-	mov	r11d, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_481
-# %bb.518:
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB1_548
-# %bb.519:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_548
-.LBB1_481:
-	xor	esi, esi
-.LBB1_582:
-	mov	r14, rsi
-	not	r14
-	add	r14, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_584
-	.p2align	4, 0x90
-.LBB1_583:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, r11d
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_583
-.LBB1_584:
-	cmp	r14, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_585:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, r11d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, r11d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, r11d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, r11d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_585
-	jmp	.LBB1_13
-.LBB1_482:
-	cmp	edi, 8
-	jle	.LBB1_494
-# %bb.483:
-	cmp	edi, 9
-	je	.LBB1_505
-# %bb.484:
-	cmp	edi, 11
-	je	.LBB1_508
-# %bb.485:
-	cmp	edi, 12
-	jne	.LBB1_13
-# %bb.486:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.487:
-	vmovsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_488
-# %bb.521:
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB1_551
-# %bb.522:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_551
-.LBB1_488:
-	xor	esi, esi
-.LBB1_590:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_592
-	.p2align	4, 0x90
-.LBB1_591:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_591
-.LBB1_592:
-	cmp	rax, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_593:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rsi], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_593
-	jmp	.LBB1_13
-.LBB1_489:
-	cmp	edi, 2
-	je	.LBB1_511
-# %bb.490:
-	cmp	edi, 3
-	jne	.LBB1_13
-# %bb.491:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.492:
-	mov	r11b, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_493
-# %bb.524:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_554
-# %bb.525:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_554
-.LBB1_493:
-	xor	esi, esi
-.LBB1_598:
-	mov	r14, rsi
-	not	r14
-	add	r14, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_600
-	.p2align	4, 0x90
-.LBB1_599:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, r11b
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_599
-.LBB1_600:
-	cmp	r14, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_601:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, r11b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, r11b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, r11b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, r11b
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_601
-	jmp	.LBB1_13
-.LBB1_494:
-	cmp	edi, 7
-	je	.LBB1_514
-# %bb.495:
-	cmp	edi, 8
-	jne	.LBB1_13
-# %bb.496:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.497:
-	mov	r11, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_498
-# %bb.527:
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB1_557
-# %bb.528:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_557
-.LBB1_498:
-	xor	esi, esi
-.LBB1_606:
-	mov	r14, rsi
-	not	r14
-	add	r14, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_608
-	.p2align	4, 0x90
-.LBB1_607:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, r11
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_607
-.LBB1_608:
-	cmp	r14, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_609:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, r11
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, r11
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, r11
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, r11
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_609
-	jmp	.LBB1_13
-.LBB1_499:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.500:
-	movzx	r14d, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_501
-# %bb.530:
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB1_560
-# %bb.531:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_560
-.LBB1_501:
-	xor	esi, esi
-.LBB1_614:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB1_616
-	.p2align	4, 0x90
-.LBB1_615:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rdx + 2*rsi]
-	sub	ebx, r14d
-	mov	word ptr [r8 + 2*rsi], bx
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB1_615
-.LBB1_616:
-	cmp	r11, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_617:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_617
-	jmp	.LBB1_13
-.LBB1_502:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.503:
-	movzx	r14d, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_504
-# %bb.533:
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB1_563
-# %bb.534:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_563
-.LBB1_504:
-	xor	esi, esi
-.LBB1_622:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB1_624
-	.p2align	4, 0x90
-.LBB1_623:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rdx + 2*rsi]
-	sub	ebx, r14d
-	mov	word ptr [r8 + 2*rsi], bx
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB1_623
-.LBB1_624:
-	cmp	r11, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_625:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_625
-	jmp	.LBB1_13
-.LBB1_505:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.506:
-	mov	r11, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_507
-# %bb.536:
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB1_566
-# %bb.537:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_566
-.LBB1_507:
-	xor	esi, esi
-.LBB1_630:
-	mov	r14, rsi
-	not	r14
-	add	r14, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_632
-	.p2align	4, 0x90
-.LBB1_631:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, r11
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_631
-.LBB1_632:
-	cmp	r14, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_633:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, r11
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, r11
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, r11
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, r11
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_633
-	jmp	.LBB1_13
-.LBB1_508:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.509:
-	vmovss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_510
-# %bb.539:
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB1_569
-# %bb.540:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_569
-.LBB1_510:
-	xor	esi, esi
-.LBB1_638:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_640
-	.p2align	4, 0x90
-.LBB1_639:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_639
-.LBB1_640:
-	cmp	rax, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_641:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rsi], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_641
-	jmp	.LBB1_13
-.LBB1_511:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.512:
-	mov	r11b, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB1_513
-# %bb.542:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_572
-# %bb.543:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_572
-.LBB1_513:
+.LBB1_350:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_350
+	jmp	.LBB1_554
+.LBB1_351:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_561
+# %bb.352:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_353:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_353
+	jmp	.LBB1_562
+.LBB1_354:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_569
+# %bb.355:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_356:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_356
+	jmp	.LBB1_570
+.LBB1_357:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_577
+# %bb.358:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_359:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_359
+	jmp	.LBB1_578
+.LBB1_360:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_585
+# %bb.361:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_362:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_362
+	jmp	.LBB1_586
+.LBB1_363:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_593
+# %bb.364:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_365:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_365
+	jmp	.LBB1_594
+.LBB1_366:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_601
+# %bb.367:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_368:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_368
+	jmp	.LBB1_602
+.LBB1_369:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_609
+# %bb.370:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_371:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_371
+	jmp	.LBB1_610
+.LBB1_372:
+	mov	ecx, eax
+	and	ecx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rcx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_617
+# %bb.373:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_374:                              # =>This Inner Loop Header: Depth=1
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
+	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 192]
+	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 224]
+	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB1_374
+	jmp	.LBB1_618
+.LBB1_375:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_625
+# %bb.376:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_377:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_377
+	jmp	.LBB1_626
+.LBB1_378:
+	mov	ecx, eax
+	and	ecx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rcx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_633
+# %bb.379:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
 	xor	esi, esi
-.LBB1_646:
-	mov	r14, rsi
-	not	r14
-	add	r14, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_648
-	.p2align	4, 0x90
-.LBB1_647:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, r11b
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_647
-.LBB1_648:
-	cmp	r14, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_649:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, r11b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, r11b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, r11b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, r11b
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_649
-	jmp	.LBB1_13
-.LBB1_514:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.515:
-	mov	r11d, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_516
-# %bb.545:
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB1_575
-# %bb.546:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_575
-.LBB1_516:
+.LBB1_380:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm5, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi + 128]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 160]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 192]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 224]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm5, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 224], ymm5
+	add	rsi, 64
+	add	rdi, 2
+	jne	.LBB1_380
+	jmp	.LBB1_634
+.LBB1_381:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_641
+# %bb.382:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_383:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_383
+	jmp	.LBB1_642
+.LBB1_384:
+	mov	ecx, eax
+	and	ecx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rcx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_649
+# %bb.385:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_386:                              # =>This Inner Loop Header: Depth=1
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
+	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 192]
+	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 224]
+	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB1_386
+	jmp	.LBB1_650
+.LBB1_387:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_657
+# %bb.388:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_389:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_389
+	jmp	.LBB1_658
+.LBB1_390:
+	mov	ecx, eax
+	and	ecx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rcx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_665
+# %bb.391:
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
 	xor	esi, esi
-.LBB1_654:
-	mov	r14, rsi
-	not	r14
-	add	r14, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_656
-	.p2align	4, 0x90
-.LBB1_655:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, r11d
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_655
-.LBB1_656:
-	cmp	r14, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_657:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, r11d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, r11d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, r11d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, r11d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_657
-	jmp	.LBB1_13
-.LBB1_517:
-	lea	rsp, [rbp - 16]
-	pop	rbx
-	pop	r14
-	pop	rbp
-	vzeroupper
-	ret
-.LBB1_548:
+.LBB1_392:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm5, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi + 128]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 160]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 192]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 224]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm5, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 224], ymm5
+	add	rsi, 64
+	add	rdi, 2
+	jne	.LBB1_392
+	jmp	.LBB1_666
+.LBB1_393:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rcx, [rsi - 128]
+	mov	r9, rcx
+	shr	r9, 7
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_673
+# %bb.394:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_395:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rcx, 2
+	jne	.LBB1_395
+	jmp	.LBB1_674
+.LBB1_396:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rcx, [rsi - 128]
+	mov	r9, rcx
+	shr	r9, 7
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_681
+# %bb.397:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_398:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rcx, 2
+	jne	.LBB1_398
+	jmp	.LBB1_682
+.LBB1_399:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rcx, [rsi - 128]
+	mov	r9, rcx
+	shr	r9, 7
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_689
+# %bb.400:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_401:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rcx, 2
+	jne	.LBB1_401
+	jmp	.LBB1_690
+.LBB1_402:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rcx, [rsi - 128]
+	mov	r9, rcx
+	shr	r9, 7
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_697
+# %bb.403:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_404:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rcx, 2
+	jne	.LBB1_404
+	jmp	.LBB1_698
+.LBB1_405:
 	mov	esi, r10d
 	and	esi, -32
-	vmovd	xmm0, r11d
+	vmovd	xmm0, eax
 	vpbroadcastd	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r14, rax
-	shr	r14, 5
-	add	r14, 1
-	test	rax, rax
-	je	.LBB1_578
-# %bb.549:
-	mov	rbx, r14
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB1_550:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rax]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rax + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rax + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rax + 96]
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_705
+# %bb.406:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_407:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_407
+	jmp	.LBB1_706
+.LBB1_408:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_713
+# %bb.409:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_410:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
 	vpsubd	ymm1, ymm1, ymm0
 	vpsubd	ymm2, ymm2, ymm0
 	vpsubd	ymm3, ymm3, ymm0
 	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rax], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rax + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rax + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rax + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rax + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
 	vpsubd	ymm1, ymm1, ymm0
 	vpsubd	ymm2, ymm2, ymm0
 	vpsubd	ymm3, ymm3, ymm0
 	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rax + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rax + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rax + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rax + 224], ymm4
-	add	rax, 64
-	add	rbx, 2
-	jne	.LBB1_550
-	jmp	.LBB1_579
-.LBB1_551:
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_410
+	jmp	.LBB1_714
+.LBB1_411:
 	mov	esi, r10d
-	and	esi, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_586
-# %bb.552:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB1_553:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rax]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rax + 32]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rax + 64]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rax + 96]
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_721
+# %bb.412:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_413:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_413
+	jmp	.LBB1_722
+.LBB1_414:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_729
+# %bb.415:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_416:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_416
+	jmp	.LBB1_730
+.LBB1_417:
+	xor	edi, edi
+.LBB1_418:
+	test	r9b, 1
+	je	.LBB1_420
+# %bb.419:
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_420:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_421
+.LBB1_425:
+	xor	edi, edi
+.LBB1_426:
+	test	r9b, 1
+	je	.LBB1_428
+# %bb.427:
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_428:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_429
+.LBB1_433:
+	xor	edi, edi
+.LBB1_434:
+	test	r9b, 1
+	je	.LBB1_436
+# %bb.435:
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_436:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_437
+.LBB1_441:
+	xor	edi, edi
+.LBB1_442:
+	test	r9b, 1
+	je	.LBB1_444
+# %bb.443:
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_444:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_445
+.LBB1_449:
+	xor	edi, edi
+.LBB1_450:
+	test	r9b, 1
+	je	.LBB1_452
+# %bb.451:
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
+	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
+.LBB1_452:
+	cmp	rcx, rax
+	je	.LBB1_737
+	jmp	.LBB1_453
+.LBB1_457:
+	xor	esi, esi
+.LBB1_458:
+	test	r9b, 1
+	je	.LBB1_460
+# %bb.459:
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
 	vsubpd	ymm2, ymm2, ymm1
 	vsubpd	ymm3, ymm3, ymm1
 	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm5, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rax], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rax + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rax + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rax + 96], ymm5
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rax + 128]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rax + 160]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rax + 192]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rax + 224]
+	vsubpd	ymm1, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
+.LBB1_460:
+	cmp	rcx, rax
+	je	.LBB1_737
+	jmp	.LBB1_461
+.LBB1_465:
+	xor	edi, edi
+.LBB1_466:
+	test	r9b, 1
+	je	.LBB1_468
+# %bb.467:
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
+	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
+.LBB1_468:
+	cmp	rcx, rax
+	je	.LBB1_737
+	jmp	.LBB1_469
+.LBB1_473:
+	xor	esi, esi
+.LBB1_474:
+	test	r9b, 1
+	je	.LBB1_476
+# %bb.475:
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
 	vsubpd	ymm2, ymm2, ymm1
 	vsubpd	ymm3, ymm3, ymm1
 	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm5, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rax + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rax + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rax + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rax + 224], ymm5
-	add	rax, 32
-	add	rbx, 2
-	jne	.LBB1_553
-	jmp	.LBB1_587
-.LBB1_554:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, r11d
-	vpbroadcastb	ymm0, xmm0
-	lea	rax, [rsi - 128]
-	mov	r14, rax
-	shr	r14, 7
-	add	r14, 1
-	test	rax, rax
-	je	.LBB1_594
-# %bb.555:
-	mov	rbx, r14
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB1_556:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rax]
-	vmovdqu	ymm2, ymmword ptr [rdx + rax + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rax + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rax + 96]
+	vsubpd	ymm1, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
+.LBB1_476:
+	cmp	rcx, rax
+	je	.LBB1_737
+	jmp	.LBB1_477
+.LBB1_481:
+	xor	edi, edi
+.LBB1_482:
+	test	r9b, 1
+	je	.LBB1_484
+# %bb.483:
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_484:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_485
+.LBB1_489:
+	xor	edi, edi
+.LBB1_490:
+	test	r9b, 1
+	je	.LBB1_492
+# %bb.491:
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
 	vpsubb	ymm1, ymm1, ymm0
 	vpsubb	ymm2, ymm2, ymm0
 	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rax], ymm1
-	vmovdqu	ymmword ptr [r8 + rax + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rax + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rax + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + rax + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + rax + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + rax + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + rax + 224]
+	vpsubb	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_492:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_493
+.LBB1_497:
+	xor	edi, edi
+.LBB1_498:
+	test	r9b, 1
+	je	.LBB1_500
+# %bb.499:
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_500:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_501
+.LBB1_505:
+	xor	edi, edi
+.LBB1_506:
+	test	r9b, 1
+	je	.LBB1_508
+# %bb.507:
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
 	vpsubb	ymm1, ymm1, ymm0
 	vpsubb	ymm2, ymm2, ymm0
 	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rax + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rax + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rax + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rax + 224], ymm4
-	add	rax, 256
-	add	rbx, 2
-	jne	.LBB1_556
-	jmp	.LBB1_595
-.LBB1_557:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r11
-	vpbroadcastq	ymm0, xmm0
-	lea	rax, [rsi - 16]
-	mov	r14, rax
-	shr	r14, 4
-	add	r14, 1
-	test	rax, rax
-	je	.LBB1_602
-# %bb.558:
-	mov	rbx, r14
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB1_559:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rax + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rax + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rax + 96]
+	vpsubb	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_508:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_509
+.LBB1_513:
+	xor	edi, edi
+.LBB1_514:
+	test	r9b, 1
+	je	.LBB1_516
+# %bb.515:
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_516:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_517
+.LBB1_521:
+	xor	edi, edi
+.LBB1_522:
+	test	r9b, 1
+	je	.LBB1_524
+# %bb.523:
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
 	vpsubq	ymm1, ymm1, ymm0
 	vpsubq	ymm2, ymm2, ymm0
 	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rax], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rax + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rax + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rax + 224]
+	vpsubq	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_524:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_525
+.LBB1_529:
+	xor	edi, edi
+.LBB1_530:
+	test	r9b, 1
+	je	.LBB1_532
+# %bb.531:
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_532:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_533
+.LBB1_537:
+	xor	edi, edi
+.LBB1_538:
+	test	r9b, 1
+	je	.LBB1_540
+# %bb.539:
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
 	vpsubq	ymm1, ymm1, ymm0
 	vpsubq	ymm2, ymm2, ymm0
 	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rax + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rax + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rax + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rax + 224], ymm4
-	add	rax, 32
-	add	rbx, 2
-	jne	.LBB1_559
-	jmp	.LBB1_603
-.LBB1_560:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastw	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_610
-# %bb.561:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_562:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx + 64]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 96]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_562
-	jmp	.LBB1_611
-.LBB1_563:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastw	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_618
-# %bb.564:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_565:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx + 64]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 96]
+	vpsubq	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_540:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_541
+.LBB1_545:
+	xor	edi, edi
+.LBB1_546:
+	test	r9b, 1
+	je	.LBB1_548
+# %bb.547:
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_548:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_549
+.LBB1_553:
+	xor	edi, edi
+.LBB1_554:
+	test	r9b, 1
+	je	.LBB1_556
+# %bb.555:
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_556:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_557
+.LBB1_561:
+	xor	edi, edi
+.LBB1_562:
+	test	r9b, 1
+	je	.LBB1_564
+# %bb.563:
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
 	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_565
-	jmp	.LBB1_619
-.LBB1_566:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r11
-	vpbroadcastq	ymm0, xmm0
-	lea	rax, [rsi - 16]
-	mov	r14, rax
-	shr	r14, 4
-	add	r14, 1
-	test	rax, rax
-	je	.LBB1_626
-# %bb.567:
-	mov	rbx, r14
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB1_568:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rax + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rax + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rax + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rax], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rax + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rax + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rax + 224]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rax + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rax + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rax + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rax + 224], ymm4
-	add	rax, 32
-	add	rbx, 2
-	jne	.LBB1_568
-	jmp	.LBB1_627
+	vpsubw	ymm0, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_564:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_565
 .LBB1_569:
-	mov	esi, r10d
-	and	esi, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_634
-# %bb.570:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB1_571:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm2, ymmword ptr [rdx + 4*rax]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rax + 32]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rax + 64]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rax + 96]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm5, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rax], ymm2
-	vmovups	ymmword ptr [r8 + 4*rax + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rax + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rax + 96], ymm5
-	vmovups	ymm2, ymmword ptr [rdx + 4*rax + 128]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rax + 160]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rax + 192]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rax + 224]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm5, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rax + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rax + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rax + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rax + 224], ymm5
-	add	rax, 64
-	add	rbx, 2
-	jne	.LBB1_571
-	jmp	.LBB1_635
+	xor	edi, edi
+.LBB1_570:
+	test	r9b, 1
+	je	.LBB1_572
+# %bb.571:
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm0, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
 .LBB1_572:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, r11d
-	vpbroadcastb	ymm0, xmm0
-	lea	rax, [rsi - 128]
-	mov	r14, rax
-	shr	r14, 7
-	add	r14, 1
-	test	rax, rax
-	je	.LBB1_642
-# %bb.573:
-	mov	rbx, r14
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB1_574:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rax]
-	vmovdqu	ymm2, ymmword ptr [rdx + rax + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rax + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rax + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rax], ymm1
-	vmovdqu	ymmword ptr [r8 + rax + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rax + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rax + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + rax + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + rax + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + rax + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + rax + 224]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rax + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rax + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rax + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rax + 224], ymm4
-	add	rax, 256
-	add	rbx, 2
-	jne	.LBB1_574
-	jmp	.LBB1_643
-.LBB1_575:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r11d
-	vpbroadcastd	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r14, rax
-	shr	r14, 5
-	add	r14, 1
-	test	rax, rax
-	je	.LBB1_650
-# %bb.576:
-	mov	rbx, r14
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB1_577:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rax]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rax + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rax + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rax + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rax], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rax + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rax + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rax + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rax + 224]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rax + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rax + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rax + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rax + 224], ymm4
-	add	rax, 64
-	add	rbx, 2
-	jne	.LBB1_577
-	jmp	.LBB1_651
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_573
+.LBB1_577:
+	xor	edi, edi
 .LBB1_578:
-	xor	eax, eax
-.LBB1_579:
-	test	r14b, 1
-	je	.LBB1_581
-# %bb.580:
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rax]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rax + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rax + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rax + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rax], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm0
-.LBB1_581:
+	test	r9b, 1
+	je	.LBB1_580
+# %bb.579:
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_580:
 	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_582
+	je	.LBB1_737
+	jmp	.LBB1_581
+.LBB1_585:
+	xor	edi, edi
 .LBB1_586:
-	xor	eax, eax
-.LBB1_587:
-	test	r11b, 1
-	je	.LBB1_589
-# %bb.588:
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rax]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rax + 32]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rax + 64]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rax + 96]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm1, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rax], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rax + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rax + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rax + 96], ymm1
-.LBB1_589:
+	test	r9b, 1
+	je	.LBB1_588
+# %bb.587:
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_588:
 	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_590
+	je	.LBB1_737
+	jmp	.LBB1_589
+.LBB1_593:
+	xor	edi, edi
 .LBB1_594:
-	xor	eax, eax
-.LBB1_595:
-	test	r14b, 1
-	je	.LBB1_597
-# %bb.596:
-	vmovdqu	ymm1, ymmword ptr [rdx + rax]
-	vmovdqu	ymm2, ymmword ptr [rdx + rax + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rax + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rax + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rax], ymm1
-	vmovdqu	ymmword ptr [r8 + rax + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rax + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rax + 96], ymm0
-.LBB1_597:
+	test	r9b, 1
+	je	.LBB1_596
+# %bb.595:
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm0, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_596:
 	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_598
+	je	.LBB1_737
+	jmp	.LBB1_597
+.LBB1_601:
+	xor	edi, edi
 .LBB1_602:
-	xor	eax, eax
-.LBB1_603:
-	test	r14b, 1
-	je	.LBB1_605
-# %bb.604:
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rax + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rax + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rax + 96]
+	test	r9b, 1
+	je	.LBB1_604
+# %bb.603:
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm0, ymm2, ymm0
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB1_604:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_605
+.LBB1_609:
+	xor	edi, edi
+.LBB1_610:
+	test	r9b, 1
+	je	.LBB1_612
+# %bb.611:
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_612:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_613
+.LBB1_617:
+	xor	edi, edi
+.LBB1_618:
+	test	r9b, 1
+	je	.LBB1_620
+# %bb.619:
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
+	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+.LBB1_620:
+	cmp	rcx, rax
+	je	.LBB1_737
+	jmp	.LBB1_621
+.LBB1_625:
+	xor	edi, edi
+.LBB1_626:
+	test	r9b, 1
+	je	.LBB1_628
+# %bb.627:
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
 	vpsubq	ymm1, ymm1, ymm0
 	vpsubq	ymm2, ymm2, ymm0
 	vpsubq	ymm3, ymm3, ymm0
 	vpsubq	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rax], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm0
-.LBB1_605:
-	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_606
-.LBB1_610:
-	xor	ebx, ebx
-.LBB1_611:
-	test	r11b, 1
-	je	.LBB1_613
-# %bb.612:
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm0, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
-.LBB1_613:
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_628:
 	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_614
-.LBB1_618:
-	xor	ebx, ebx
-.LBB1_619:
-	test	r11b, 1
-	je	.LBB1_621
-# %bb.620:
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rbx]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rbx + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm0, ymm2, ymm0
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
-.LBB1_621:
+	je	.LBB1_737
+	jmp	.LBB1_629
+.LBB1_633:
+	xor	esi, esi
+.LBB1_634:
+	test	r9b, 1
+	je	.LBB1_636
+# %bb.635:
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm1, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
+.LBB1_636:
+	cmp	rcx, rax
+	je	.LBB1_737
+	jmp	.LBB1_637
+.LBB1_641:
+	xor	edi, edi
+.LBB1_642:
+	test	r9b, 1
+	je	.LBB1_644
+# %bb.643:
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_644:
 	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_622
-.LBB1_626:
-	xor	eax, eax
-.LBB1_627:
-	test	r14b, 1
-	je	.LBB1_629
-# %bb.628:
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rax]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rax + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rax + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rax + 96]
+	je	.LBB1_737
+	jmp	.LBB1_645
+.LBB1_649:
+	xor	edi, edi
+.LBB1_650:
+	test	r9b, 1
+	je	.LBB1_652
+# %bb.651:
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
+	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+.LBB1_652:
+	cmp	rcx, rax
+	je	.LBB1_737
+	jmp	.LBB1_653
+.LBB1_657:
+	xor	edi, edi
+.LBB1_658:
+	test	r9b, 1
+	je	.LBB1_660
+# %bb.659:
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
 	vpsubq	ymm1, ymm1, ymm0
 	vpsubq	ymm2, ymm2, ymm0
 	vpsubq	ymm3, ymm3, ymm0
 	vpsubq	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 8*rax], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rax + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rax + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rax + 96], ymm0
-.LBB1_629:
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB1_660:
 	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_630
-.LBB1_634:
-	xor	eax, eax
-.LBB1_635:
-	test	r11b, 1
-	je	.LBB1_637
-# %bb.636:
-	vmovups	ymm2, ymmword ptr [rdx + 4*rax]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rax + 32]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rax + 64]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rax + 96]
+	je	.LBB1_737
+	jmp	.LBB1_661
+.LBB1_665:
+	xor	esi, esi
+.LBB1_666:
+	test	r9b, 1
+	je	.LBB1_668
+# %bb.667:
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
 	vsubps	ymm2, ymm2, ymm1
 	vsubps	ymm3, ymm3, ymm1
 	vsubps	ymm4, ymm4, ymm1
 	vsubps	ymm1, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rax], ymm2
-	vmovups	ymmword ptr [r8 + 4*rax + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rax + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rax + 96], ymm1
-.LBB1_637:
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
+.LBB1_668:
+	cmp	rcx, rax
+	je	.LBB1_737
+	jmp	.LBB1_669
+.LBB1_673:
+	xor	edi, edi
+.LBB1_674:
+	test	r9b, 1
+	je	.LBB1_676
+# %bb.675:
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_676:
 	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_638
-.LBB1_642:
-	xor	eax, eax
-.LBB1_643:
-	test	r14b, 1
-	je	.LBB1_645
-# %bb.644:
-	vmovdqu	ymm1, ymmword ptr [rdx + rax]
-	vmovdqu	ymm2, ymmword ptr [rdx + rax + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rax + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rax + 96]
+	je	.LBB1_737
+	jmp	.LBB1_677
+.LBB1_681:
+	xor	edi, edi
+.LBB1_682:
+	test	r9b, 1
+	je	.LBB1_684
+# %bb.683:
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
 	vpsubb	ymm1, ymm1, ymm0
 	vpsubb	ymm2, ymm2, ymm0
 	vpsubb	ymm3, ymm3, ymm0
 	vpsubb	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + rax], ymm1
-	vmovdqu	ymmword ptr [r8 + rax + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rax + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rax + 96], ymm0
-.LBB1_645:
-	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_646
-.LBB1_650:
-	xor	eax, eax
-.LBB1_651:
-	test	r14b, 1
-	je	.LBB1_653
-# %bb.652:
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rax]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rax + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rax + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rax + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm0, ymm4, ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rax], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rax + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rax + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rax + 96], ymm0
-.LBB1_653:
-	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_654
-.LBB1_658:
-	xor	ebx, ebx
-.LBB1_659:
-	test	r11b, 1
-	je	.LBB1_661
-# %bb.660:
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
-.LBB1_661:
-	cmp	rsi, r10
-	je	.LBB1_3
-	jmp	.LBB1_662
-.LBB1_666:
-	xor	ebx, ebx
-.LBB1_667:
-	test	r10b, 1
-	je	.LBB1_669
-# %bb.668:
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rbx]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rbx + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rbx + 64]
-	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rbx + 96]
-	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm1
-.LBB1_669:
-	cmp	rsi, r11
-	je	.LBB1_3
-	jmp	.LBB1_670
-.LBB1_674:
-	xor	ebx, ebx
-.LBB1_675:
-	test	r11b, 1
-	je	.LBB1_677
-# %bb.676:
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
-.LBB1_677:
-	cmp	rsi, r10
-	je	.LBB1_3
-	jmp	.LBB1_678
-.LBB1_682:
-	xor	ebx, ebx
-.LBB1_683:
-	test	r11b, 1
-	je	.LBB1_685
-# %bb.684:
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
-.LBB1_685:
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_684:
 	cmp	rsi, r10
-	je	.LBB1_3
-	jmp	.LBB1_686
+	je	.LBB1_737
+	jmp	.LBB1_685
+.LBB1_689:
+	xor	edi, edi
 .LBB1_690:
-	xor	ebx, ebx
-.LBB1_691:
-	test	r11b, 1
-	je	.LBB1_693
-# %bb.692:
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
-.LBB1_693:
+	test	r9b, 1
+	je	.LBB1_692
+# %bb.691:
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_692:
 	cmp	rsi, r10
-	je	.LBB1_3
-	jmp	.LBB1_694
+	je	.LBB1_737
+	jmp	.LBB1_693
+.LBB1_697:
+	xor	edi, edi
 .LBB1_698:
-	xor	ebx, ebx
-.LBB1_699:
-	test	r11b, 1
-	je	.LBB1_701
-# %bb.700:
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rbx]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
-.LBB1_701:
+	test	r9b, 1
+	je	.LBB1_700
+# %bb.699:
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB1_700:
 	cmp	rsi, r10
-	je	.LBB1_3
-	jmp	.LBB1_702
+	je	.LBB1_737
+	jmp	.LBB1_701
+.LBB1_705:
+	xor	edi, edi
 .LBB1_706:
-	xor	ebx, ebx
-.LBB1_707:
-	test	r11b, 1
-	je	.LBB1_709
-# %bb.708:
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rbx]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rbx + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rbx + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
-.LBB1_709:
+	test	r9b, 1
+	je	.LBB1_708
+# %bb.707:
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_708:
 	cmp	rsi, r10
-	je	.LBB1_3
-	jmp	.LBB1_710
+	je	.LBB1_737
+	jmp	.LBB1_709
+.LBB1_713:
+	xor	edi, edi
 .LBB1_714:
-	xor	ebx, ebx
-.LBB1_715:
-	test	r10b, 1
-	je	.LBB1_717
-# %bb.716:
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rbx]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rbx + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rbx + 64]
-	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rbx + 96]
-	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
-	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm1
-.LBB1_717:
-	cmp	rsi, r11
-	je	.LBB1_3
-	jmp	.LBB1_718
+	test	r9b, 1
+	je	.LBB1_716
+# %bb.715:
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_716:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_717
+.LBB1_721:
+	xor	edi, edi
 .LBB1_722:
-	xor	ebx, ebx
-.LBB1_723:
-	test	r11b, 1
-	je	.LBB1_725
-# %bb.724:
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rbx]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rbx + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rbx + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
-.LBB1_725:
+	test	r9b, 1
+	je	.LBB1_724
+# %bb.723:
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_724:
 	cmp	rsi, r10
-	je	.LBB1_3
-	jmp	.LBB1_726
+	je	.LBB1_737
+	jmp	.LBB1_725
+.LBB1_729:
+	xor	edi, edi
 .LBB1_730:
-	xor	ebx, ebx
-.LBB1_731:
-	test	r11b, 1
-	je	.LBB1_733
-# %bb.732:
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rbx]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rbx + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rbx + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
-.LBB1_733:
+	test	r9b, 1
+	je	.LBB1_732
+# %bb.731:
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm0, ymm4, ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB1_732:
 	cmp	rsi, r10
-	je	.LBB1_3
-	jmp	.LBB1_734
+	jne	.LBB1_733
+.LBB1_737:
+	mov	rsp, rbp
+	pop	rbp
+	vzeroupper
+	ret
 .Lfunc_end1:
 	.size	arithmetic_arr_scalar_avx2, .Lfunc_end1-arithmetic_arr_scalar_avx2
                                         # -- End function
@@ -8288,145 +8150,139 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 # %bb.0:
 	push	rbp
 	mov	rbp, rsp
-	push	r14
-	push	rbx
 	and	rsp, -8
 	cmp	sil, 1
 	jg	.LBB2_11
 # %bb.1:
 	test	sil, sil
-	je	.LBB2_28
+	je	.LBB2_21
 # %bb.2:
 	cmp	sil, 1
-	jne	.LBB2_517
-.LBB2_3:
+	jne	.LBB2_737
+# %bb.3:
 	cmp	edi, 6
-	jg	.LBB2_36
+	jg	.LBB2_37
 # %bb.4:
 	cmp	edi, 3
-	jle	.LBB2_60
+	jle	.LBB2_65
 # %bb.5:
 	cmp	edi, 4
-	je	.LBB2_98
+	je	.LBB2_105
 # %bb.6:
 	cmp	edi, 5
-	je	.LBB2_101
+	je	.LBB2_108
 # %bb.7:
 	cmp	edi, 6
-	jne	.LBB2_474
+	jne	.LBB2_737
 # %bb.8:
 	test	r9d, r9d
-	jle	.LBB2_517
+	jle	.LBB2_737
 # %bb.9:
-	mov	r14d, dword ptr [rdx]
+	mov	eax, dword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 32
 	jb	.LBB2_10
-# %bb.164:
-	lea	rax, [rcx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB2_254
-# %bb.165:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_254
+# %bb.177:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_297
+# %bb.178:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_297
 .LBB2_10:
 	xor	esi, esi
-.LBB2_398:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_400
-	.p2align	4, 0x90
-.LBB2_399:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
+.LBB2_421:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_423
+.LBB2_422:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_399
-.LBB2_400:
-	cmp	r11, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_401:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rdi, -1
+	jne	.LBB2_422
+.LBB2_423:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_424:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_401
-	jmp	.LBB2_474
+	jne	.LBB2_424
+	jmp	.LBB2_737
 .LBB2_11:
 	cmp	sil, 2
-	je	.LBB2_474
+	je	.LBB2_29
 # %bb.12:
 	cmp	sil, 3
-	jne	.LBB2_517
-.LBB2_13:
+	jne	.LBB2_737
+# %bb.13:
 	cmp	edi, 6
-	jg	.LBB2_21
+	jg	.LBB2_44
 # %bb.14:
 	cmp	edi, 3
-	jle	.LBB2_50
+	jle	.LBB2_70
 # %bb.15:
 	cmp	edi, 4
-	je	.LBB2_70
+	je	.LBB2_111
 # %bb.16:
 	cmp	edi, 5
-	je	.LBB2_73
+	je	.LBB2_114
 # %bb.17:
 	cmp	edi, 6
-	jne	.LBB2_517
+	jne	.LBB2_737
 # %bb.18:
 	test	r9d, r9d
-	jle	.LBB2_517
+	jle	.LBB2_737
 # %bb.19:
 	mov	r11d, dword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 32
 	jb	.LBB2_20
-# %bb.134:
+# %bb.180:
 	lea	rdx, [rcx + 4*r10]
 	cmp	rdx, r8
-	jbe	.LBB2_194
-# %bb.135:
+	jbe	.LBB2_300
+# %bb.181:
 	lea	rdx, [r8 + 4*r10]
 	cmp	rdx, rcx
-	jbe	.LBB2_194
+	jbe	.LBB2_300
 .LBB2_20:
 	xor	esi, esi
-.LBB2_318:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_320
-	.p2align	4, 0x90
-.LBB2_319:                              # =>This Inner Loop Header: Depth=1
+.LBB2_429:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_431
+.LBB2_430:                              # =>This Inner Loop Header: Depth=1
 	mov	eax, r11d
 	sub	eax, dword ptr [rcx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
 	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_319
-.LBB2_320:
-	cmp	rdi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_321:                              # =>This Inner Loop Header: Depth=1
+	add	rdi, -1
+	jne	.LBB2_430
+.LBB2_431:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_432:                              # =>This Inner Loop Header: Depth=1
 	mov	eax, r11d
 	sub	eax, dword ptr [rcx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
@@ -8441,57 +8297,248 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_321
-	jmp	.LBB2_517
+	jne	.LBB2_432
+	jmp	.LBB2_737
 .LBB2_21:
+	cmp	edi, 6
+	jg	.LBB2_51
+# %bb.22:
+	cmp	edi, 3
+	jle	.LBB2_75
+# %bb.23:
+	cmp	edi, 4
+	je	.LBB2_117
+# %bb.24:
+	cmp	edi, 5
+	je	.LBB2_120
+# %bb.25:
+	cmp	edi, 6
+	jne	.LBB2_737
+# %bb.26:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.27:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_28
+# %bb.183:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_303
+# %bb.184:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_303
+.LBB2_28:
+	xor	esi, esi
+.LBB2_437:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_439
+.LBB2_438:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_438
+.LBB2_439:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_440:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_440
+	jmp	.LBB2_737
+.LBB2_29:
+	cmp	edi, 6
+	jg	.LBB2_58
+# %bb.30:
+	cmp	edi, 3
+	jle	.LBB2_80
+# %bb.31:
+	cmp	edi, 4
+	je	.LBB2_123
+# %bb.32:
+	cmp	edi, 5
+	je	.LBB2_126
+# %bb.33:
+	cmp	edi, 6
+	jne	.LBB2_737
+# %bb.34:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.35:
+	mov	r11d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_36
+# %bb.186:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_306
+# %bb.187:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_306
+.LBB2_36:
+	xor	esi, esi
+.LBB2_445:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_447
+.LBB2_446:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_446
+.LBB2_447:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_448:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_448
+	jmp	.LBB2_737
+.LBB2_37:
+	cmp	edi, 8
+	jle	.LBB2_85
+# %bb.38:
+	cmp	edi, 9
+	je	.LBB2_129
+# %bb.39:
+	cmp	edi, 11
+	je	.LBB2_132
+# %bb.40:
+	cmp	edi, 12
+	jne	.LBB2_737
+# %bb.41:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.42:
+	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 16
+	jb	.LBB2_43
+# %bb.189:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_309
+# %bb.190:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_309
+.LBB2_43:
+	xor	edx, edx
+.LBB2_453:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_455
+.LBB2_454:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_454
+.LBB2_455:
+	cmp	rsi, 3
+	jb	.LBB2_737
+.LBB2_456:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
+	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
+	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
+	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_456
+	jmp	.LBB2_737
+.LBB2_44:
 	cmp	edi, 8
-	jle	.LBB2_55
-# %bb.22:
+	jle	.LBB2_90
+# %bb.45:
 	cmp	edi, 9
-	je	.LBB2_76
-# %bb.23:
+	je	.LBB2_135
+# %bb.46:
 	cmp	edi, 11
-	je	.LBB2_79
-# %bb.24:
+	je	.LBB2_138
+# %bb.47:
 	cmp	edi, 12
-	jne	.LBB2_517
-# %bb.25:
+	jne	.LBB2_737
+# %bb.48:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.26:
+	jle	.LBB2_737
+# %bb.49:
 	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
 	mov	eax, r9d
 	cmp	r9d, 16
-	jb	.LBB2_27
-# %bb.137:
+	jb	.LBB2_50
+# %bb.192:
 	lea	rdx, [rcx + 8*rax]
 	cmp	rdx, r8
-	jbe	.LBB2_197
-# %bb.138:
+	jbe	.LBB2_312
+# %bb.193:
 	lea	rdx, [r8 + 8*rax]
 	cmp	rdx, rcx
-	jbe	.LBB2_197
-.LBB2_27:
+	jbe	.LBB2_312
+.LBB2_50:
 	xor	edx, edx
-.LBB2_326:
+.LBB2_461:
 	mov	rsi, rdx
 	not	rsi
 	add	rsi, rax
 	mov	rdi, rax
 	and	rdi, 3
-	je	.LBB2_328
-	.p2align	4, 0x90
-.LBB2_327:                              # =>This Inner Loop Header: Depth=1
+	je	.LBB2_463
+.LBB2_462:                              # =>This Inner Loop Header: Depth=1
 	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
 	vmovsd	qword ptr [r8 + 8*rdx], xmm1
 	add	rdx, 1
 	add	rdi, -1
-	jne	.LBB2_327
-.LBB2_328:
+	jne	.LBB2_462
+.LBB2_463:
 	cmp	rsi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_329:                              # =>This Inner Loop Header: Depth=1
+	jb	.LBB2_737
+.LBB2_464:                              # =>This Inner Loop Header: Depth=1
 	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
 	vmovsd	qword ptr [r8 + 8*rdx], xmm1
 	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
@@ -8502,239 +8549,342 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
 	add	rdx, 4
 	cmp	rax, rdx
-	jne	.LBB2_329
-	jmp	.LBB2_517
-.LBB2_28:
-	cmp	edi, 6
-	jg	.LBB2_43
-# %bb.29:
-	cmp	edi, 3
-	jle	.LBB2_88
-# %bb.30:
-	cmp	edi, 4
-	je	.LBB2_116
-# %bb.31:
-	cmp	edi, 5
-	je	.LBB2_119
-# %bb.32:
-	cmp	edi, 6
-	jne	.LBB2_3
-# %bb.33:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.34:
-	mov	r14d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_35
-# %bb.224:
-	lea	rax, [rcx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB2_284
-# %bb.225:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_284
-.LBB2_35:
-	xor	esi, esi
-.LBB2_662:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_664
-.LBB2_663:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_663
-.LBB2_664:
-	cmp	r11, 3
-	jb	.LBB2_3
-.LBB2_665:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_665
-	jmp	.LBB2_3
-.LBB2_36:
+	jne	.LBB2_464
+	jmp	.LBB2_737
+.LBB2_51:
 	cmp	edi, 8
-	jle	.LBB2_65
-# %bb.37:
+	jle	.LBB2_95
+# %bb.52:
 	cmp	edi, 9
-	je	.LBB2_104
-# %bb.38:
+	je	.LBB2_141
+# %bb.53:
 	cmp	edi, 11
-	je	.LBB2_107
-# %bb.39:
+	je	.LBB2_144
+# %bb.54:
 	cmp	edi, 12
-	jne	.LBB2_474
-# %bb.40:
+	jne	.LBB2_737
+# %bb.55:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.41:
+	jle	.LBB2_737
+# %bb.56:
 	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	r11d, r9d
+	mov	eax, r9d
 	cmp	r9d, 16
-	jb	.LBB2_42
-# %bb.167:
-	lea	rax, [rcx + 8*r11]
-	cmp	rax, r8
-	jbe	.LBB2_257
-# %bb.168:
-	lea	rax, [r8 + 8*r11]
-	cmp	rax, rcx
-	jbe	.LBB2_257
-.LBB2_42:
-	xor	esi, esi
-.LBB2_406:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB2_408
-	.p2align	4, 0x90
-.LBB2_407:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_407
-.LBB2_408:
-	cmp	rax, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_409:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB2_409
-	jmp	.LBB2_474
-.LBB2_43:
+	jb	.LBB2_57
+# %bb.195:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_315
+# %bb.196:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_315
+.LBB2_57:
+	xor	edx, edx
+.LBB2_469:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_471
+.LBB2_470:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_470
+.LBB2_471:
+	cmp	rsi, 3
+	jb	.LBB2_737
+.LBB2_472:                              # =>This Inner Loop Header: Depth=1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
+	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
+	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
+	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_472
+	jmp	.LBB2_737
+.LBB2_58:
 	cmp	edi, 8
-	jle	.LBB2_93
-# %bb.44:
+	jle	.LBB2_100
+# %bb.59:
 	cmp	edi, 9
-	je	.LBB2_122
-# %bb.45:
+	je	.LBB2_147
+# %bb.60:
 	cmp	edi, 11
-	je	.LBB2_125
-# %bb.46:
+	je	.LBB2_150
+# %bb.61:
 	cmp	edi, 12
-	jne	.LBB2_3
-# %bb.47:
+	jne	.LBB2_737
+# %bb.62:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.48:
+	jle	.LBB2_737
+# %bb.63:
 	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	r11d, r9d
+	mov	eax, r9d
 	cmp	r9d, 16
-	jb	.LBB2_49
-# %bb.227:
-	lea	rax, [rcx + 8*r11]
-	cmp	rax, r8
-	jbe	.LBB2_287
-# %bb.228:
-	lea	rax, [r8 + 8*r11]
-	cmp	rax, rcx
-	jbe	.LBB2_287
-.LBB2_49:
-	xor	esi, esi
-.LBB2_670:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB2_672
-.LBB2_671:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm1
+	jb	.LBB2_64
+# %bb.198:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_318
+# %bb.199:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_318
+.LBB2_64:
+	xor	edx, edx
+.LBB2_477:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_479
+.LBB2_478:                              # =>This Inner Loop Header: Depth=1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_478
+.LBB2_479:
+	cmp	rsi, 3
+	jb	.LBB2_737
+.LBB2_480:                              # =>This Inner Loop Header: Depth=1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vmovsd	qword ptr [r8 + 8*rdx], xmm1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
+	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
+	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
+	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_480
+	jmp	.LBB2_737
+.LBB2_65:
+	cmp	edi, 2
+	je	.LBB2_153
+# %bb.66:
+	cmp	edi, 3
+	jne	.LBB2_737
+# %bb.67:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.68:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_69
+# %bb.201:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_321
+# %bb.202:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_321
+.LBB2_69:
+	xor	esi, esi
+.LBB2_485:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_487
+.LBB2_486:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_486
+.LBB2_487:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_488:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_488
+	jmp	.LBB2_737
+.LBB2_70:
+	cmp	edi, 2
+	je	.LBB2_156
+# %bb.71:
+	cmp	edi, 3
+	jne	.LBB2_737
+# %bb.72:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.73:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_74
+# %bb.204:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_324
+# %bb.205:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_324
+.LBB2_74:
+	xor	esi, esi
+.LBB2_493:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_495
+.LBB2_494:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_494
+.LBB2_495:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_496:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_496
+	jmp	.LBB2_737
+.LBB2_75:
+	cmp	edi, 2
+	je	.LBB2_159
+# %bb.76:
+	cmp	edi, 3
+	jne	.LBB2_737
+# %bb.77:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.78:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 128
+	jb	.LBB2_79
+# %bb.207:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_327
+# %bb.208:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_327
+.LBB2_79:
+	xor	esi, esi
+.LBB2_501:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_503
+.LBB2_502:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_671
-.LBB2_672:
-	cmp	rax, 3
-	jb	.LBB2_3
-.LBB2_673:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rdi, -1
+	jne	.LBB2_502
+.LBB2_503:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_504:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB2_673
-	jmp	.LBB2_3
-.LBB2_50:
+	cmp	r10, rsi
+	jne	.LBB2_504
+	jmp	.LBB2_737
+.LBB2_80:
 	cmp	edi, 2
-	je	.LBB2_82
-# %bb.51:
+	je	.LBB2_162
+# %bb.81:
 	cmp	edi, 3
-	jne	.LBB2_517
-# %bb.52:
+	jne	.LBB2_737
+# %bb.82:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.53:
+	jle	.LBB2_737
+# %bb.83:
 	mov	al, byte ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 128
-	jb	.LBB2_54
-# %bb.140:
+	jb	.LBB2_84
+# %bb.210:
 	lea	rdx, [rcx + r10]
 	cmp	rdx, r8
-	jbe	.LBB2_200
-# %bb.141:
+	jbe	.LBB2_330
+# %bb.211:
 	lea	rdx, [r8 + r10]
 	cmp	rdx, rcx
-	jbe	.LBB2_200
-.LBB2_54:
+	jbe	.LBB2_330
+.LBB2_84:
 	xor	esi, esi
-.LBB2_334:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_336
-	.p2align	4, 0x90
-.LBB2_335:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, eax
-	sub	bl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], bl
+.LBB2_509:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_511
+.LBB2_510:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], dl
 	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_335
-.LBB2_336:
-	cmp	rdi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_337:                              # =>This Inner Loop Header: Depth=1
+	add	rdi, -1
+	jne	.LBB2_510
+.LBB2_511:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_512:                              # =>This Inner Loop Header: Depth=1
 	mov	edx, eax
 	sub	dl, byte ptr [rcx + rsi]
 	mov	byte ptr [r8 + rsi], dl
@@ -8749,52 +8899,224 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	mov	byte ptr [r8 + rsi + 3], dl
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_337
-	jmp	.LBB2_517
-.LBB2_55:
+	jne	.LBB2_512
+	jmp	.LBB2_737
+.LBB2_85:
 	cmp	edi, 7
-	je	.LBB2_85
-# %bb.56:
+	je	.LBB2_165
+# %bb.86:
 	cmp	edi, 8
-	jne	.LBB2_517
-# %bb.57:
+	jne	.LBB2_737
+# %bb.87:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.58:
+	jle	.LBB2_737
+# %bb.88:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_89
+# %bb.213:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_333
+# %bb.214:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_333
+.LBB2_89:
+	xor	esi, esi
+.LBB2_517:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_519
+.LBB2_518:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_518
+.LBB2_519:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_520:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_520
+	jmp	.LBB2_737
+.LBB2_90:
+	cmp	edi, 7
+	je	.LBB2_168
+# %bb.91:
+	cmp	edi, 8
+	jne	.LBB2_737
+# %bb.92:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.93:
 	mov	r11, qword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jb	.LBB2_59
-# %bb.143:
+	jb	.LBB2_94
+# %bb.216:
 	lea	rdx, [rcx + 8*r10]
 	cmp	rdx, r8
-	jbe	.LBB2_203
-# %bb.144:
+	jbe	.LBB2_336
+# %bb.217:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_336
+.LBB2_94:
+	xor	esi, esi
+.LBB2_525:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_527
+.LBB2_526:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_526
+.LBB2_527:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_528:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_528
+	jmp	.LBB2_737
+.LBB2_95:
+	cmp	edi, 7
+	je	.LBB2_171
+# %bb.96:
+	cmp	edi, 8
+	jne	.LBB2_737
+# %bb.97:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.98:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_99
+# %bb.219:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_339
+# %bb.220:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_339
+.LBB2_99:
+	xor	esi, esi
+.LBB2_533:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_535
+.LBB2_534:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_534
+.LBB2_535:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_536:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_536
+	jmp	.LBB2_737
+.LBB2_100:
+	cmp	edi, 7
+	je	.LBB2_174
+# %bb.101:
+	cmp	edi, 8
+	jne	.LBB2_737
+# %bb.102:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.103:
+	mov	r11, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_104
+# %bb.222:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_342
+# %bb.223:
 	lea	rdx, [r8 + 8*r10]
 	cmp	rdx, rcx
-	jbe	.LBB2_203
-.LBB2_59:
+	jbe	.LBB2_342
+.LBB2_104:
 	xor	esi, esi
-.LBB2_342:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_344
-	.p2align	4, 0x90
-.LBB2_343:                              # =>This Inner Loop Header: Depth=1
+.LBB2_541:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_543
+.LBB2_542:                              # =>This Inner Loop Header: Depth=1
 	mov	rax, r11
 	sub	rax, qword ptr [rcx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
 	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_343
-.LBB2_344:
-	cmp	rdi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_345:                              # =>This Inner Loop Header: Depth=1
+	add	rdi, -1
+	jne	.LBB2_542
+.LBB2_543:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_544:                              # =>This Inner Loop Header: Depth=1
 	mov	rax, r11
 	sub	rax, qword ptr [rcx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
@@ -8809,166 +9131,356 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_345
-	jmp	.LBB2_517
-.LBB2_60:
-	cmp	edi, 2
-	je	.LBB2_110
-# %bb.61:
-	cmp	edi, 3
-	jne	.LBB2_474
-# %bb.62:
+	jne	.LBB2_544
+	jmp	.LBB2_737
+.LBB2_105:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.63:
-	mov	r14b, byte ptr [rdx]
+	jle	.LBB2_737
+# %bb.106:
+	movzx	eax, word ptr [rdx]
 	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_64
-# %bb.170:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_260
-# %bb.171:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_260
-.LBB2_64:
+	cmp	r9d, 32
+	jb	.LBB2_107
+# %bb.225:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_345
+# %bb.226:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_345
+.LBB2_107:
+	xor	esi, esi
+.LBB2_549:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_551
+.LBB2_550:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_550
+.LBB2_551:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_552:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_552
+	jmp	.LBB2_737
+.LBB2_108:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.109:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_110
+# %bb.228:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_348
+# %bb.229:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_348
+.LBB2_110:
+	xor	esi, esi
+.LBB2_557:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_559
+.LBB2_558:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, ax
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_558
+.LBB2_559:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_560:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_560
+	jmp	.LBB2_737
+.LBB2_111:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.112:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_113
+# %bb.231:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_351
+# %bb.232:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_351
+.LBB2_113:
+	xor	esi, esi
+.LBB2_565:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_567
+.LBB2_566:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, eax
+	sub	di, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_566
+.LBB2_567:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_568:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_568
+	jmp	.LBB2_737
+.LBB2_114:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.115:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_116
+# %bb.234:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_354
+# %bb.235:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_354
+.LBB2_116:
+	xor	esi, esi
+.LBB2_573:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_575
+.LBB2_574:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, eax
+	sub	di, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
+	add	rsi, 1
+	add	rdx, -1
+	jne	.LBB2_574
+.LBB2_575:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_576:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_576
+	jmp	.LBB2_737
+.LBB2_117:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.118:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_119
+# %bb.237:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_357
+# %bb.238:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_357
+.LBB2_119:
 	xor	esi, esi
-.LBB2_414:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_416
-	.p2align	4, 0x90
-.LBB2_415:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
+.LBB2_581:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_583
+.LBB2_582:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, ax
+	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_415
-.LBB2_416:
-	cmp	r11, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_417:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
+	add	rdx, -1
+	jne	.LBB2_582
+.LBB2_583:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_584:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_417
-	jmp	.LBB2_474
-.LBB2_65:
-	cmp	edi, 7
-	je	.LBB2_113
-# %bb.66:
-	cmp	edi, 8
-	jne	.LBB2_474
-# %bb.67:
+	jne	.LBB2_584
+	jmp	.LBB2_737
+.LBB2_120:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.68:
-	mov	r14, qword ptr [rdx]
+	jle	.LBB2_737
+# %bb.121:
+	movzx	eax, word ptr [rdx]
 	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_69
-# %bb.173:
-	lea	rax, [rcx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB2_263
-# %bb.174:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_263
-.LBB2_69:
+	cmp	r9d, 32
+	jb	.LBB2_122
+# %bb.240:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_360
+# %bb.241:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_360
+.LBB2_122:
 	xor	esi, esi
-.LBB2_422:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_424
-	.p2align	4, 0x90
-.LBB2_423:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
+.LBB2_589:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdx, r10
+	and	rdx, 3
+	je	.LBB2_591
+.LBB2_590:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, ax
+	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_423
-.LBB2_424:
-	cmp	r11, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_425:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rdx, -1
+	jne	.LBB2_590
+.LBB2_591:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_592:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_425
-	jmp	.LBB2_474
-.LBB2_70:
+	jne	.LBB2_592
+	jmp	.LBB2_737
+.LBB2_123:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.71:
+	jle	.LBB2_737
+# %bb.124:
 	movzx	eax, word ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jb	.LBB2_72
-# %bb.146:
+	jb	.LBB2_125
+# %bb.243:
 	lea	rdx, [rcx + 2*r10]
 	cmp	rdx, r8
-	jbe	.LBB2_206
-# %bb.147:
+	jbe	.LBB2_363
+# %bb.244:
 	lea	rdx, [r8 + 2*r10]
 	cmp	rdx, rcx
-	jbe	.LBB2_206
-.LBB2_72:
+	jbe	.LBB2_363
+.LBB2_125:
 	xor	esi, esi
-.LBB2_350:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
+.LBB2_597:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rdx, r10
 	and	rdx, 3
-	je	.LBB2_352
-	.p2align	4, 0x90
-.LBB2_351:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, eax
-	sub	bx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], bx
+	je	.LBB2_599
+.LBB2_598:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, eax
+	sub	di, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rdx, -1
-	jne	.LBB2_351
-.LBB2_352:
-	cmp	rdi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_353:                              # =>This Inner Loop Header: Depth=1
+	jne	.LBB2_598
+.LBB2_599:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_600:                              # =>This Inner Loop Header: Depth=1
 	mov	edx, eax
 	sub	dx, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], dx
@@ -8983,46 +9495,44 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	mov	word ptr [r8 + 2*rsi + 6], dx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_353
-	jmp	.LBB2_517
-.LBB2_73:
+	jne	.LBB2_600
+	jmp	.LBB2_737
+.LBB2_126:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.74:
+	jle	.LBB2_737
+# %bb.127:
 	movzx	eax, word ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jb	.LBB2_75
-# %bb.149:
+	jb	.LBB2_128
+# %bb.246:
 	lea	rdx, [rcx + 2*r10]
 	cmp	rdx, r8
-	jbe	.LBB2_209
-# %bb.150:
+	jbe	.LBB2_366
+# %bb.247:
 	lea	rdx, [r8 + 2*r10]
 	cmp	rdx, rcx
-	jbe	.LBB2_209
-.LBB2_75:
+	jbe	.LBB2_366
+.LBB2_128:
 	xor	esi, esi
-.LBB2_358:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
+.LBB2_605:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rdx, r10
 	and	rdx, 3
-	je	.LBB2_360
-	.p2align	4, 0x90
-.LBB2_359:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, eax
-	sub	bx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], bx
+	je	.LBB2_607
+.LBB2_606:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, eax
+	sub	di, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rdx, -1
-	jne	.LBB2_359
-.LBB2_360:
-	cmp	rdi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_361:                              # =>This Inner Loop Header: Depth=1
+	jne	.LBB2_606
+.LBB2_607:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_608:                              # =>This Inner Loop Header: Depth=1
 	mov	edx, eax
 	sub	dx, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], dx
@@ -9037,46 +9547,341 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	mov	word ptr [r8 + 2*rsi + 6], dx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_361
-	jmp	.LBB2_517
-.LBB2_76:
+	jne	.LBB2_608
+	jmp	.LBB2_737
+.LBB2_129:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.77:
+	jle	.LBB2_737
+# %bb.130:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_131
+# %bb.249:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_369
+# %bb.250:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_369
+.LBB2_131:
+	xor	esi, esi
+.LBB2_613:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_615
+.LBB2_614:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_614
+.LBB2_615:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_616:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_616
+	jmp	.LBB2_737
+.LBB2_132:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.133:
+	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB2_134
+# %bb.252:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_372
+# %bb.253:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_372
+.LBB2_134:
+	xor	edx, edx
+.LBB2_621:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_623
+.LBB2_622:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_622
+.LBB2_623:
+	cmp	rsi, 3
+	jb	.LBB2_737
+.LBB2_624:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
+	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
+	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
+	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_624
+	jmp	.LBB2_737
+.LBB2_135:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.136:
 	mov	r11, qword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jb	.LBB2_78
-# %bb.152:
+	jb	.LBB2_137
+# %bb.255:
 	lea	rdx, [rcx + 8*r10]
 	cmp	rdx, r8
-	jbe	.LBB2_212
-# %bb.153:
+	jbe	.LBB2_375
+# %bb.256:
 	lea	rdx, [r8 + 8*r10]
 	cmp	rdx, rcx
-	jbe	.LBB2_212
-.LBB2_78:
+	jbe	.LBB2_375
+.LBB2_137:
 	xor	esi, esi
-.LBB2_366:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_368
-	.p2align	4, 0x90
-.LBB2_367:                              # =>This Inner Loop Header: Depth=1
+.LBB2_629:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_631
+.LBB2_630:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_630
+.LBB2_631:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_632:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_632
+	jmp	.LBB2_737
+.LBB2_138:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.139:
+	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB2_140
+# %bb.258:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_378
+# %bb.259:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_378
+.LBB2_140:
+	xor	edx, edx
+.LBB2_637:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_639
+.LBB2_638:                              # =>This Inner Loop Header: Depth=1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_638
+.LBB2_639:
+	cmp	rsi, 3
+	jb	.LBB2_737
+.LBB2_640:                              # =>This Inner Loop Header: Depth=1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
+	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
+	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
+	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_640
+	jmp	.LBB2_737
+.LBB2_141:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.142:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_143
+# %bb.261:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_381
+# %bb.262:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_381
+.LBB2_143:
+	xor	esi, esi
+.LBB2_645:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_647
+.LBB2_646:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_646
+.LBB2_647:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_648:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_648
+	jmp	.LBB2_737
+.LBB2_144:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.145:
+	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 32
+	jb	.LBB2_146
+# %bb.264:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_384
+# %bb.265:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_384
+.LBB2_146:
+	xor	edx, edx
+.LBB2_653:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_655
+.LBB2_654:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_654
+.LBB2_655:
+	cmp	rsi, 3
+	jb	.LBB2_737
+.LBB2_656:                              # =>This Inner Loop Header: Depth=1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vmovss	dword ptr [r8 + 4*rdx], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
+	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
+	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
+	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_656
+	jmp	.LBB2_737
+.LBB2_147:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.148:
+	mov	r11, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_149
+# %bb.267:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_387
+# %bb.268:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_387
+.LBB2_149:
+	xor	esi, esi
+.LBB2_661:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_663
+.LBB2_662:                              # =>This Inner Loop Header: Depth=1
 	mov	rax, r11
 	sub	rax, qword ptr [rcx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
 	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_367
-.LBB2_368:
-	cmp	rdi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_369:                              # =>This Inner Loop Header: Depth=1
+	add	rdi, -1
+	jne	.LBB2_662
+.LBB2_663:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_664:                              # =>This Inner Loop Header: Depth=1
 	mov	rax, r11
 	sub	rax, qword ptr [rcx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
@@ -9091,45 +9896,43 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_369
-	jmp	.LBB2_517
-.LBB2_79:
+	jne	.LBB2_664
+	jmp	.LBB2_737
+.LBB2_150:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.80:
+	jle	.LBB2_737
+# %bb.151:
 	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
 	mov	eax, r9d
 	cmp	r9d, 32
-	jb	.LBB2_81
-# %bb.155:
+	jb	.LBB2_152
+# %bb.270:
 	lea	rdx, [rcx + 4*rax]
 	cmp	rdx, r8
-	jbe	.LBB2_215
-# %bb.156:
+	jbe	.LBB2_390
+# %bb.271:
 	lea	rdx, [r8 + 4*rax]
 	cmp	rdx, rcx
-	jbe	.LBB2_215
-.LBB2_81:
+	jbe	.LBB2_390
+.LBB2_152:
 	xor	edx, edx
-.LBB2_374:
+.LBB2_669:
 	mov	rsi, rdx
 	not	rsi
 	add	rsi, rax
 	mov	rdi, rax
 	and	rdi, 3
-	je	.LBB2_376
-	.p2align	4, 0x90
-.LBB2_375:                              # =>This Inner Loop Header: Depth=1
+	je	.LBB2_671
+.LBB2_670:                              # =>This Inner Loop Header: Depth=1
 	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
 	vmovss	dword ptr [r8 + 4*rdx], xmm1
 	add	rdx, 1
 	add	rdi, -1
-	jne	.LBB2_375
-.LBB2_376:
+	jne	.LBB2_670
+.LBB2_671:
 	cmp	rsi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_377:                              # =>This Inner Loop Header: Depth=1
+	jb	.LBB2_737
+.LBB2_672:                              # =>This Inner Loop Header: Depth=1
 	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
 	vmovss	dword ptr [r8 + 4*rdx], xmm1
 	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
@@ -9140,969 +9943,1318 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
 	add	rdx, 4
 	cmp	rax, rdx
-	jne	.LBB2_377
-	jmp	.LBB2_517
-.LBB2_82:
+	jne	.LBB2_672
+	jmp	.LBB2_737
+.LBB2_153:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.83:
+	jle	.LBB2_737
+# %bb.154:
 	mov	al, byte ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 128
-	jb	.LBB2_84
-# %bb.158:
+	jb	.LBB2_155
+# %bb.273:
 	lea	rdx, [rcx + r10]
 	cmp	rdx, r8
-	jbe	.LBB2_218
-# %bb.159:
+	jbe	.LBB2_393
+# %bb.274:
 	lea	rdx, [r8 + r10]
 	cmp	rdx, rcx
-	jbe	.LBB2_218
-.LBB2_84:
-	xor	esi, esi
-.LBB2_382:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_384
-	.p2align	4, 0x90
-.LBB2_383:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, eax
-	sub	bl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], bl
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_383
-.LBB2_384:
-	cmp	rdi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_385:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], dl
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_385
-	jmp	.LBB2_517
-.LBB2_85:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.86:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_87
-# %bb.161:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_221
-# %bb.162:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_221
-.LBB2_87:
-	xor	esi, esi
-.LBB2_390:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_392
-	.p2align	4, 0x90
-.LBB2_391:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_391
-.LBB2_392:
-	cmp	rdi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_393:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_393
-	jmp	.LBB2_517
-.LBB2_88:
-	cmp	edi, 2
-	je	.LBB2_128
-# %bb.89:
-	cmp	edi, 3
-	jne	.LBB2_3
-# %bb.90:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.91:
-	mov	r14b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_92
-# %bb.230:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_290
-# %bb.231:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_290
-.LBB2_92:
-	xor	esi, esi
-.LBB2_678:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_680
-.LBB2_679:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_679
-.LBB2_680:
-	cmp	r11, 3
-	jb	.LBB2_3
-.LBB2_681:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_681
-	jmp	.LBB2_3
-.LBB2_93:
-	cmp	edi, 7
-	je	.LBB2_131
-# %bb.94:
-	cmp	edi, 8
-	jne	.LBB2_3
-# %bb.95:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.96:
-	mov	r14, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_97
-# %bb.233:
-	lea	rax, [rcx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB2_293
-# %bb.234:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_293
-.LBB2_97:
-	xor	esi, esi
-.LBB2_686:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_688
-.LBB2_687:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_687
-.LBB2_688:
-	cmp	r11, 3
-	jb	.LBB2_3
-.LBB2_689:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_689
-	jmp	.LBB2_3
-.LBB2_98:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.99:
-	movzx	r14d, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_100
-# %bb.176:
-	lea	rax, [rcx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB2_266
-# %bb.177:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_266
-.LBB2_100:
-	xor	esi, esi
-.LBB2_430:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB2_432
-	.p2align	4, 0x90
-.LBB2_431:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rcx + 2*rsi]
-	add	bx, r14w
-	mov	word ptr [r8 + 2*rsi], bx
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB2_431
-.LBB2_432:
-	cmp	r11, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_433:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_433
-	jmp	.LBB2_474
-.LBB2_101:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.102:
-	movzx	r14d, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_103
-# %bb.179:
-	lea	rax, [rcx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB2_269
-# %bb.180:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_269
-.LBB2_103:
+	jbe	.LBB2_393
+.LBB2_155:
 	xor	esi, esi
-.LBB2_438:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB2_440
-	.p2align	4, 0x90
-.LBB2_439:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rcx + 2*rsi]
-	add	bx, r14w
-	mov	word ptr [r8 + 2*rsi], bx
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB2_439
-.LBB2_440:
-	cmp	r11, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_441:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_441
-	jmp	.LBB2_474
-.LBB2_104:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.105:
-	mov	r14, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_106
-# %bb.182:
-	lea	rax, [rcx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB2_272
-# %bb.183:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_272
-.LBB2_106:
-	xor	esi, esi
-.LBB2_446:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_448
-	.p2align	4, 0x90
-.LBB2_447:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_447
-.LBB2_448:
-	cmp	r11, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_449:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_449
-	jmp	.LBB2_474
-.LBB2_107:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.108:
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_109
-# %bb.185:
-	lea	rax, [rcx + 4*r11]
-	cmp	rax, r8
-	jbe	.LBB2_275
-# %bb.186:
-	lea	rax, [r8 + 4*r11]
-	cmp	rax, rcx
-	jbe	.LBB2_275
-.LBB2_109:
-	xor	esi, esi
-.LBB2_454:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB2_456
-	.p2align	4, 0x90
-.LBB2_455:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_455
-.LBB2_456:
-	cmp	rax, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_457:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB2_457
-	jmp	.LBB2_474
-.LBB2_110:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.111:
-	mov	r14b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_112
-# %bb.188:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_278
-# %bb.189:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_278
-.LBB2_112:
-	xor	esi, esi
-.LBB2_462:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_464
-	.p2align	4, 0x90
-.LBB2_463:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_463
-.LBB2_464:
-	cmp	r11, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_465:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
+.LBB2_677:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_679
+.LBB2_678:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_678
+.LBB2_679:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_680:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_465
-	jmp	.LBB2_474
-.LBB2_113:
+	jne	.LBB2_680
+	jmp	.LBB2_737
+.LBB2_156:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.114:
-	mov	r14d, dword ptr [rdx]
+	jle	.LBB2_737
+# %bb.157:
+	mov	al, byte ptr [rdx]
 	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_115
-# %bb.191:
-	lea	rax, [rcx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB2_281
-# %bb.192:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_281
-.LBB2_115:
-	xor	esi, esi
-.LBB2_470:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_472
-	.p2align	4, 0x90
-.LBB2_471:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
+	cmp	r9d, 128
+	jb	.LBB2_158
+# %bb.276:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_396
+# %bb.277:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_396
+.LBB2_158:
+	xor	esi, esi
+.LBB2_685:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_687
+.LBB2_686:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], dl
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_471
-.LBB2_472:
-	cmp	r11, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_473:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rdi, -1
+	jne	.LBB2_686
+.LBB2_687:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_688:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], dl
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_473
-	jmp	.LBB2_474
-.LBB2_116:
+	jne	.LBB2_688
+	jmp	.LBB2_737
+.LBB2_159:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.117:
-	movzx	r14d, word ptr [rdx]
+	jle	.LBB2_737
+# %bb.160:
+	mov	al, byte ptr [rdx]
 	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_118
-# %bb.236:
-	lea	rax, [rcx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB2_296
-# %bb.237:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_296
-.LBB2_118:
+	cmp	r9d, 128
+	jb	.LBB2_161
+# %bb.279:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_399
+# %bb.280:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_399
+.LBB2_161:
 	xor	esi, esi
-.LBB2_694:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB2_696
-.LBB2_695:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rcx + 2*rsi]
-	add	bx, r14w
-	mov	word ptr [r8 + 2*rsi], bx
+.LBB2_693:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_695
+.LBB2_694:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
 	add	rsi, 1
-	add	rax, -1
-	jne	.LBB2_695
-.LBB2_696:
-	cmp	r11, 3
-	jb	.LBB2_3
-.LBB2_697:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rdi, -1
+	jne	.LBB2_694
+.LBB2_695:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_696:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_697
-	jmp	.LBB2_3
-.LBB2_119:
+	jne	.LBB2_696
+	jmp	.LBB2_737
+.LBB2_162:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.120:
-	movzx	r14d, word ptr [rdx]
+	jle	.LBB2_737
+# %bb.163:
+	mov	al, byte ptr [rdx]
 	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_121
-# %bb.239:
-	lea	rax, [rcx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB2_299
-# %bb.240:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_299
-.LBB2_121:
+	cmp	r9d, 128
+	jb	.LBB2_164
+# %bb.282:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_402
+# %bb.283:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_402
+.LBB2_164:
 	xor	esi, esi
-.LBB2_702:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB2_704
-.LBB2_703:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rcx + 2*rsi]
-	add	bx, r14w
-	mov	word ptr [r8 + 2*rsi], bx
+.LBB2_701:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_703
+.LBB2_702:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], dl
 	add	rsi, 1
-	add	rax, -1
-	jne	.LBB2_703
-.LBB2_704:
-	cmp	r11, 3
-	jb	.LBB2_3
-.LBB2_705:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rdi, -1
+	jne	.LBB2_702
+.LBB2_703:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_704:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], dl
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], dl
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_705
-	jmp	.LBB2_3
-.LBB2_122:
+	jne	.LBB2_704
+	jmp	.LBB2_737
+.LBB2_165:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.123:
-	mov	r14, qword ptr [rdx]
+	jle	.LBB2_737
+# %bb.166:
+	mov	eax, dword ptr [rdx]
 	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_124
-# %bb.242:
-	lea	rax, [rcx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB2_302
-# %bb.243:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_302
-.LBB2_124:
-	xor	esi, esi
-.LBB2_710:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_712
-.LBB2_711:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
+	cmp	r9d, 32
+	jb	.LBB2_167
+# %bb.285:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_405
+# %bb.286:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_405
+.LBB2_167:
+	xor	esi, esi
+.LBB2_709:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_711
+.LBB2_710:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_711
-.LBB2_712:
-	cmp	r11, 3
-	jb	.LBB2_3
-.LBB2_713:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rdi, -1
+	jne	.LBB2_710
+.LBB2_711:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_712:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_713
-	jmp	.LBB2_3
-.LBB2_125:
+	jne	.LBB2_712
+	jmp	.LBB2_737
+.LBB2_168:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.126:
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	r11d, r9d
+	jle	.LBB2_737
+# %bb.169:
+	mov	r11d, dword ptr [rdx]
+	mov	r10d, r9d
 	cmp	r9d, 32
-	jb	.LBB2_127
-# %bb.245:
-	lea	rax, [rcx + 4*r11]
-	cmp	rax, r8
-	jbe	.LBB2_305
-# %bb.246:
-	lea	rax, [r8 + 4*r11]
-	cmp	rax, rcx
-	jbe	.LBB2_305
-.LBB2_127:
-	xor	esi, esi
-.LBB2_718:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB2_720
-.LBB2_719:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm1
+	jb	.LBB2_170
+# %bb.288:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_408
+# %bb.289:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_408
+.LBB2_170:
+	xor	esi, esi
+.LBB2_717:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_719
+.LBB2_718:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_719
-.LBB2_720:
-	cmp	rax, 3
-	jb	.LBB2_3
-.LBB2_721:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm1
+	add	rdi, -1
+	jne	.LBB2_718
+.LBB2_719:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_720:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB2_721
-	jmp	.LBB2_3
-.LBB2_128:
+	cmp	r10, rsi
+	jne	.LBB2_720
+	jmp	.LBB2_737
+.LBB2_171:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.129:
-	mov	r14b, byte ptr [rdx]
+	jle	.LBB2_737
+# %bb.172:
+	mov	eax, dword ptr [rdx]
 	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_130
-# %bb.248:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_308
-# %bb.249:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_308
-.LBB2_130:
-	xor	esi, esi
-.LBB2_726:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_728
-.LBB2_727:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
+	cmp	r9d, 32
+	jb	.LBB2_173
+# %bb.291:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_411
+# %bb.292:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_411
+.LBB2_173:
+	xor	esi, esi
+.LBB2_725:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_727
+.LBB2_726:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_727
-.LBB2_728:
-	cmp	r11, 3
-	jb	.LBB2_3
-.LBB2_729:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
+	add	rdi, -1
+	jne	.LBB2_726
+.LBB2_727:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_728:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_729
-	jmp	.LBB2_3
-.LBB2_131:
+	jne	.LBB2_728
+	jmp	.LBB2_737
+.LBB2_174:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.132:
-	mov	r14d, dword ptr [rdx]
+	jle	.LBB2_737
+# %bb.175:
+	mov	r11d, dword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jb	.LBB2_133
-# %bb.251:
-	lea	rax, [rcx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB2_311
-# %bb.252:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_311
-.LBB2_133:
-	xor	esi, esi
-.LBB2_734:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_736
-.LBB2_735:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, r14d
+	jb	.LBB2_176
+# %bb.294:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_414
+# %bb.295:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_414
+.LBB2_176:
+	xor	esi, esi
+.LBB2_733:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_735
+.LBB2_734:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_735
-.LBB2_736:
-	cmp	r11, 3
-	jb	.LBB2_3
-.LBB2_737:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, r14d
+	add	rdi, -1
+	jne	.LBB2_734
+.LBB2_735:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_736:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, r14d
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
 	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, r14d
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
 	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, r14d
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
 	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_737
-	jmp	.LBB2_3
-.LBB2_194:
+	jne	.LBB2_736
+	jmp	.LBB2_737
+.LBB2_297:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_417
+# %bb.298:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_299:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_299
+	jmp	.LBB2_418
+.LBB2_300:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r11d
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_425
+# %bb.301:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_302:                              # =>This Inner Loop Header: Depth=1
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_302
+	jmp	.LBB2_426
+.LBB2_303:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_433
+# %bb.304:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_305:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_305
+	jmp	.LBB2_434
+.LBB2_306:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r11d
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_441
+# %bb.307:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_308:                              # =>This Inner Loop Header: Depth=1
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_308
+	jmp	.LBB2_442
+.LBB2_309:
+	mov	edx, eax
+	and	edx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_449
+# %bb.310:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_311:                              # =>This Inner Loop Header: Depth=1
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
+	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rsi, 2
+	jne	.LBB2_311
+	jmp	.LBB2_450
+.LBB2_312:
+	mov	edx, eax
+	and	edx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_457
+# %bb.313:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_314:                              # =>This Inner Loop Header: Depth=1
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
+	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rsi, 2
+	jne	.LBB2_314
+	jmp	.LBB2_458
+.LBB2_315:
+	mov	edx, eax
+	and	edx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_465
+# %bb.316:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_317:                              # =>This Inner Loop Header: Depth=1
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
+	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rsi, 2
+	jne	.LBB2_317
+	jmp	.LBB2_466
+.LBB2_318:
+	mov	edx, eax
+	and	edx, -16
+	vbroadcastsd	ymm1, xmm0
+	lea	rsi, [rdx - 16]
+	mov	r9, rsi
+	shr	r9, 4
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_473
+# %bb.319:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_320:                              # =>This Inner Loop Header: Depth=1
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
+	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rsi, 2
+	jne	.LBB2_320
+	jmp	.LBB2_474
+.LBB2_321:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_481
+# %bb.322:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_323:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rdx, 2
+	jne	.LBB2_323
+	jmp	.LBB2_482
+.LBB2_324:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_489
+# %bb.325:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_326:                              # =>This Inner Loop Header: Depth=1
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rdx, 2
+	jne	.LBB2_326
+	jmp	.LBB2_490
+.LBB2_327:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_497
+# %bb.328:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_329:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rdx, 2
+	jne	.LBB2_329
+	jmp	.LBB2_498
+.LBB2_330:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_505
+# %bb.331:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_332:                              # =>This Inner Loop Header: Depth=1
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rdx, 2
+	jne	.LBB2_332
+	jmp	.LBB2_506
+.LBB2_333:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_513
+# %bb.334:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_335:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_335
+	jmp	.LBB2_514
+.LBB2_336:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r11
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_521
+# %bb.337:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_338:                              # =>This Inner Loop Header: Depth=1
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_338
+	jmp	.LBB2_522
+.LBB2_339:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_529
+# %bb.340:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_341:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_341
+	jmp	.LBB2_530
+.LBB2_342:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, r11
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_537
+# %bb.343:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_344:                              # =>This Inner Loop Header: Depth=1
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_344
+	jmp	.LBB2_538
+.LBB2_345:
 	mov	esi, r10d
 	and	esi, -32
-	vmovd	xmm0, r11d
-	vpbroadcastd	ymm0, xmm0
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
 	lea	rdx, [rsi - 32]
 	mov	r9, rdx
 	shr	r9, 5
 	add	r9, 1
 	test	rdx, rdx
-	je	.LBB2_314
-# %bb.195:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB2_196:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
-	add	rbx, 64
-	add	rdi, 2
-	jne	.LBB2_196
-	jmp	.LBB2_315
-.LBB2_197:
-	mov	edx, eax
-	and	edx, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rsi, [rdx - 16]
-	mov	rbx, rsi
-	shr	rbx, 4
-	add	rbx, 1
-	test	rsi, rsi
-	je	.LBB2_322
-# %bb.198:
-	mov	rsi, rbx
-	and	rsi, -2
-	neg	rsi
+	je	.LBB2_545
+# %bb.346:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
 	xor	edi, edi
-.LBB2_199:                              # =>This Inner Loop Header: Depth=1
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
-	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
-	jne	.LBB2_199
-	jmp	.LBB2_323
-.LBB2_200:
+.LBB2_347:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_347
+	jmp	.LBB2_546
+.LBB2_348:
 	mov	esi, r10d
-	and	esi, -128
+	and	esi, -32
 	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
 	mov	r9, rdx
-	shr	r9, 7
+	shr	r9, 5
 	add	r9, 1
 	test	rdx, rdx
-	je	.LBB2_330
-# %bb.201:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB2_202:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rbx + 224]
-	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
-	add	rbx, 256
-	add	rdi, 2
-	jne	.LBB2_202
-	jmp	.LBB2_331
-.LBB2_203:
+	je	.LBB2_553
+# %bb.349:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_350:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_350
+	jmp	.LBB2_554
+.LBB2_351:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_561
+# %bb.352:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_353:                              # =>This Inner Loop Header: Depth=1
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_353
+	jmp	.LBB2_562
+.LBB2_354:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_569
+# %bb.355:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_356:                              # =>This Inner Loop Header: Depth=1
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_356
+	jmp	.LBB2_570
+.LBB2_357:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_577
+# %bb.358:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_359:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_359
+	jmp	.LBB2_578
+.LBB2_360:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_585
+# %bb.361:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_362:                              # =>This Inner Loop Header: Depth=1
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_362
+	jmp	.LBB2_586
+.LBB2_363:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_593
+# %bb.364:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_365:                              # =>This Inner Loop Header: Depth=1
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_365
+	jmp	.LBB2_594
+.LBB2_366:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastw	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_601
+# %bb.367:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_368:                              # =>This Inner Loop Header: Depth=1
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_368
+	jmp	.LBB2_602
+.LBB2_369:
+	mov	esi, r10d
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_609
+# %bb.370:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_371:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_371
+	jmp	.LBB2_610
+.LBB2_372:
+	mov	edx, eax
+	and	edx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rdx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_617
+# %bb.373:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_374:                              # =>This Inner Loop Header: Depth=1
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
+	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
+	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB2_374
+	jmp	.LBB2_618
+.LBB2_375:
 	mov	esi, r10d
 	and	esi, -16
 	vmovq	xmm0, r11
@@ -10112,92 +11264,143 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	shr	r9, 4
 	add	r9, 1
 	test	rdx, rdx
-	je	.LBB2_338
-# %bb.204:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB2_205:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
-	add	rbx, 32
-	add	rdi, 2
-	jne	.LBB2_205
-	jmp	.LBB2_339
-.LBB2_206:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
+	je	.LBB2_625
+# %bb.376:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_377:                              # =>This Inner Loop Header: Depth=1
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_377
+	jmp	.LBB2_626
+.LBB2_378:
+	mov	edx, eax
+	and	edx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rdx - 32]
+	mov	r9, rsi
 	shr	r9, 5
 	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_346
-# %bb.207:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB2_208:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
-	add	rbx, 64
-	add	rdi, 2
-	jne	.LBB2_208
-	jmp	.LBB2_347
-.LBB2_209:
+	test	rsi, rsi
+	je	.LBB2_633
+# %bb.379:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_380:                              # =>This Inner Loop Header: Depth=1
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
+	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
+	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB2_380
+	jmp	.LBB2_634
+.LBB2_381:
 	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, eax
-	vpbroadcastw	ymm0, xmm0
-	lea	rdx, [rsi - 32]
+	and	esi, -16
+	vmovq	xmm0, rax
+	vpbroadcastq	ymm0, xmm0
+	lea	rdx, [rsi - 16]
 	mov	r9, rdx
-	shr	r9, 5
+	shr	r9, 4
 	add	r9, 1
 	test	rdx, rdx
-	je	.LBB2_354
-# %bb.210:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB2_211:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
-	add	rbx, 64
-	add	rdi, 2
-	jne	.LBB2_211
-	jmp	.LBB2_355
-.LBB2_212:
+	je	.LBB2_641
+# %bb.382:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_383:                              # =>This Inner Loop Header: Depth=1
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_383
+	jmp	.LBB2_642
+.LBB2_384:
+	mov	edx, eax
+	and	edx, -32
+	vbroadcastss	ymm1, xmm0
+	lea	rsi, [rdx - 32]
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_649
+# %bb.385:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_386:                              # =>This Inner Loop Header: Depth=1
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
+	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
+	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
+	add	rdi, 64
+	add	rsi, 2
+	jne	.LBB2_386
+	jmp	.LBB2_650
+.LBB2_387:
 	mov	esi, r10d
 	and	esi, -16
 	vmovq	xmm0, r11
@@ -10207,49 +11410,49 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	shr	r9, 4
 	add	r9, 1
 	test	rdx, rdx
-	je	.LBB2_362
-# %bb.213:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB2_214:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
-	add	rbx, 32
-	add	rdi, 2
-	jne	.LBB2_214
-	jmp	.LBB2_363
-.LBB2_215:
+	je	.LBB2_657
+# %bb.388:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_389:                              # =>This Inner Loop Header: Depth=1
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 224], ymm4
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_389
+	jmp	.LBB2_658
+.LBB2_390:
 	mov	edx, eax
 	and	edx, -32
 	vbroadcastss	ymm1, xmm0
 	lea	rsi, [rdx - 32]
-	mov	rbx, rsi
-	shr	rbx, 5
-	add	rbx, 1
+	mov	r9, rsi
+	shr	r9, 5
+	add	r9, 1
 	test	rsi, rsi
-	je	.LBB2_370
-# %bb.216:
-	mov	rsi, rbx
+	je	.LBB2_665
+# %bb.391:
+	mov	rsi, r9
 	and	rsi, -2
 	neg	rsi
 	xor	edi, edi
-.LBB2_217:                              # =>This Inner Loop Header: Depth=1
+.LBB2_392:                              # =>This Inner Loop Header: Depth=1
 	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
 	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
 	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
@@ -10267,47 +11470,269 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
 	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
 	add	rdi, 64
-	add	rsi, 2
-	jne	.LBB2_217
-	jmp	.LBB2_371
-.LBB2_218:
+	add	rsi, 2
+	jne	.LBB2_392
+	jmp	.LBB2_666
+.LBB2_393:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_673
+# %bb.394:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_395:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rdx, 2
+	jne	.LBB2_395
+	jmp	.LBB2_674
+.LBB2_396:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_681
+# %bb.397:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_398:                              # =>This Inner Loop Header: Depth=1
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rdx, 2
+	jne	.LBB2_398
+	jmp	.LBB2_682
+.LBB2_399:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_689
+# %bb.400:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_401:                              # =>This Inner Loop Header: Depth=1
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rdx, 2
+	jne	.LBB2_401
+	jmp	.LBB2_690
+.LBB2_402:
+	mov	esi, r10d
+	and	esi, -128
+	vmovd	xmm0, eax
+	vpbroadcastb	ymm0, xmm0
+	lea	rdx, [rsi - 128]
+	mov	r9, rdx
+	shr	r9, 7
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_697
+# %bb.403:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_404:                              # =>This Inner Loop Header: Depth=1
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 224], ymm4
+	add	rdi, 256
+	add	rdx, 2
+	jne	.LBB2_404
+	jmp	.LBB2_698
+.LBB2_405:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, eax
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_705
+# %bb.406:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_407:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_407
+	jmp	.LBB2_706
+.LBB2_408:
+	mov	esi, r10d
+	and	esi, -32
+	vmovd	xmm0, r11d
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_713
+# %bb.409:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_410:                              # =>This Inner Loop Header: Depth=1
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_410
+	jmp	.LBB2_714
+.LBB2_411:
 	mov	esi, r10d
-	and	esi, -128
+	and	esi, -32
 	vmovd	xmm0, eax
-	vpbroadcastb	ymm0, xmm0
-	lea	rdx, [rsi - 128]
+	vpbroadcastd	ymm0, xmm0
+	lea	rdx, [rsi - 32]
 	mov	r9, rdx
-	shr	r9, 7
+	shr	r9, 5
 	add	r9, 1
 	test	rdx, rdx
-	je	.LBB2_378
-# %bb.219:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB2_220:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rbx + 224]
-	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
-	add	rbx, 256
-	add	rdi, 2
-	jne	.LBB2_220
-	jmp	.LBB2_379
-.LBB2_221:
+	je	.LBB2_721
+# %bb.412:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_413:                              # =>This Inner Loop Header: Depth=1
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_413
+	jmp	.LBB2_722
+.LBB2_414:
 	mov	esi, r10d
 	and	esi, -32
 	vmovd	xmm0, r11d
@@ -10317,761 +11742,129 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	shr	r9, 5
 	add	r9, 1
 	test	rdx, rdx
-	je	.LBB2_386
-# %bb.222:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB2_223:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
-	add	rbx, 64
-	add	rdi, 2
-	jne	.LBB2_223
-	jmp	.LBB2_387
-.LBB2_254:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastd	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_394
-# %bb.255:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_256:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_256
-	jmp	.LBB2_395
-.LBB2_257:
-	mov	esi, r11d
-	and	esi, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rax, [rsi - 16]
-	mov	r10, rax
-	shr	r10, 4
-	add	r10, 1
-	test	rax, rax
-	je	.LBB2_402
-# %bb.258:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_259:                              # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 64]
-	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rbx + 96]
-	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm5
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx + 128]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 160]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 192]
-	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rbx + 224]
-	vmovupd	ymmword ptr [r8 + 8*rbx + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rbx + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rbx + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rbx + 224], ymm5
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB2_259
-	jmp	.LBB2_403
-.LBB2_260:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	lea	rax, [rsi - 128]
-	mov	r11, rax
-	shr	r11, 7
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_410
-# %bb.261:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_262:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rbx + 224]
-	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
-	add	rbx, 256
-	add	rax, 2
-	jne	.LBB2_262
-	jmp	.LBB2_411
-.LBB2_263:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r14
-	vpbroadcastq	ymm0, xmm0
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_418
-# %bb.264:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_265:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB2_265
-	jmp	.LBB2_419
-.LBB2_266:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastw	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_426
-# %bb.267:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_268:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_268
-	jmp	.LBB2_427
-.LBB2_269:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastw	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_434
-# %bb.270:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_271:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_271
-	jmp	.LBB2_435
-.LBB2_272:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r14
-	vpbroadcastq	ymm0, xmm0
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_442
-# %bb.273:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_274:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB2_274
-	jmp	.LBB2_443
-.LBB2_275:
-	mov	esi, r11d
-	and	esi, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rax, [rsi - 32]
-	mov	r10, rax
-	shr	r10, 5
-	add	r10, 1
-	test	rax, rax
-	je	.LBB2_450
-# %bb.276:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_277:                              # =>This Inner Loop Header: Depth=1
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 64]
-	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rbx + 96]
-	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
-	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm5
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx + 128]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 160]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 192]
-	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rbx + 224]
-	vmovups	ymmword ptr [r8 + 4*rbx + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rbx + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rbx + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rbx + 224], ymm5
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_277
-	jmp	.LBB2_451
-.LBB2_278:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	lea	rax, [rsi - 128]
-	mov	r11, rax
-	shr	r11, 7
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_458
-# %bb.279:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_280:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rbx + 224]
-	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
-	add	rbx, 256
-	add	rax, 2
-	jne	.LBB2_280
-	jmp	.LBB2_459
-.LBB2_281:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastd	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_466
-# %bb.282:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_283:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_283
-	jmp	.LBB2_467
-.LBB2_284:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastd	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_658
-# %bb.285:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_286:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_286
-	jmp	.LBB2_659
-.LBB2_287:
-	mov	esi, r11d
-	and	esi, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rax, [rsi - 16]
-	mov	r10, rax
-	shr	r10, 4
-	add	r10, 1
-	test	rax, rax
-	je	.LBB2_666
-# %bb.288:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_289:                              # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 64]
-	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rbx + 96]
-	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm5
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx + 128]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 160]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 192]
-	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rbx + 224]
-	vmovupd	ymmword ptr [r8 + 8*rbx + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rbx + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rbx + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rbx + 224], ymm5
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB2_289
-	jmp	.LBB2_667
-.LBB2_290:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	lea	rax, [rsi - 128]
-	mov	r11, rax
-	shr	r11, 7
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_674
-# %bb.291:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_292:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rbx + 224]
-	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
-	add	rbx, 256
-	add	rax, 2
-	jne	.LBB2_292
-	jmp	.LBB2_675
-.LBB2_293:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r14
-	vpbroadcastq	ymm0, xmm0
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_682
-# %bb.294:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_295:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB2_295
-	jmp	.LBB2_683
-.LBB2_296:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastw	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_690
-# %bb.297:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_298:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_298
-	jmp	.LBB2_691
-.LBB2_299:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastw	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_698
-# %bb.300:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_301:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_301
-	jmp	.LBB2_699
-.LBB2_302:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r14
-	vpbroadcastq	ymm0, xmm0
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_706
-# %bb.303:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_304:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB2_304
-	jmp	.LBB2_707
-.LBB2_305:
-	mov	esi, r11d
-	and	esi, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rax, [rsi - 32]
-	mov	r10, rax
-	shr	r10, 5
-	add	r10, 1
-	test	rax, rax
-	je	.LBB2_714
-# %bb.306:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_307:                              # =>This Inner Loop Header: Depth=1
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 64]
-	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rbx + 96]
-	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
-	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm5
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx + 128]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 160]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 192]
-	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rbx + 224]
-	vmovups	ymmword ptr [r8 + 4*rbx + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rbx + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rbx + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rbx + 224], ymm5
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_307
-	jmp	.LBB2_715
-.LBB2_308:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	lea	rax, [rsi - 128]
-	mov	r11, rax
-	shr	r11, 7
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_722
-# %bb.309:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_310:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rbx + 224]
-	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
-	add	rbx, 256
-	add	rax, 2
-	jne	.LBB2_310
-	jmp	.LBB2_723
-.LBB2_311:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastd	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_730
-# %bb.312:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_313:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_313
-	jmp	.LBB2_731
-.LBB2_314:
-	xor	ebx, ebx
-.LBB2_315:
+	je	.LBB2_729
+# %bb.415:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_416:                              # =>This Inner Loop Header: Depth=1
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 224], ymm4
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_416
+	jmp	.LBB2_730
+.LBB2_417:
+	xor	edi, edi
+.LBB2_418:
 	test	r9b, 1
-	je	.LBB2_317
-# %bb.316:
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
-.LBB2_317:
+	je	.LBB2_420
+# %bb.419:
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_420:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_421
+.LBB2_425:
+	xor	edi, edi
+.LBB2_426:
+	test	r9b, 1
+	je	.LBB2_428
+# %bb.427:
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_428:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_429
+.LBB2_433:
+	xor	edi, edi
+.LBB2_434:
+	test	r9b, 1
+	je	.LBB2_436
+# %bb.435:
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_436:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_437
+.LBB2_441:
+	xor	edi, edi
+.LBB2_442:
+	test	r9b, 1
+	je	.LBB2_444
+# %bb.443:
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_444:
 	cmp	rsi, r10
-	je	.LBB2_517
-	jmp	.LBB2_318
-.LBB2_322:
-	xor	edi, edi
-.LBB2_323:
-	test	bl, 1
-	je	.LBB2_325
-# %bb.324:
+	je	.LBB2_737
+	jmp	.LBB2_445
+.LBB2_449:
+	xor	edi, edi
+.LBB2_450:
+	test	r9b, 1
+	je	.LBB2_452
+# %bb.451:
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vaddpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
+.LBB2_452:
+	cmp	rdx, rax
+	je	.LBB2_737
+	jmp	.LBB2_453
+.LBB2_457:
+	xor	edi, edi
+.LBB2_458:
+	test	r9b, 1
+	je	.LBB2_460
+# %bb.459:
 	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
 	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
 	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
@@ -11080,1589 +11873,594 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
 	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
 	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
-.LBB2_325:
+.LBB2_460:
 	cmp	rdx, rax
-	je	.LBB2_517
-	jmp	.LBB2_326
-.LBB2_330:
-	xor	ebx, ebx
-.LBB2_331:
-	test	r9b, 1
-	je	.LBB2_333
-# %bb.332:
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
-.LBB2_333:
-	cmp	rsi, r10
-	je	.LBB2_517
-	jmp	.LBB2_334
-.LBB2_338:
-	xor	ebx, ebx
-.LBB2_339:
-	test	r9b, 1
-	je	.LBB2_341
-# %bb.340:
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
-.LBB2_341:
-	cmp	rsi, r10
-	je	.LBB2_517
-	jmp	.LBB2_342
-.LBB2_346:
-	xor	ebx, ebx
-.LBB2_347:
-	test	r9b, 1
-	je	.LBB2_349
-# %bb.348:
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
-.LBB2_349:
-	cmp	rsi, r10
-	je	.LBB2_517
-	jmp	.LBB2_350
-.LBB2_354:
-	xor	ebx, ebx
-.LBB2_355:
-	test	r9b, 1
-	je	.LBB2_357
-# %bb.356:
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
-.LBB2_357:
-	cmp	rsi, r10
-	je	.LBB2_517
-	jmp	.LBB2_358
-.LBB2_362:
-	xor	ebx, ebx
-.LBB2_363:
+	je	.LBB2_737
+	jmp	.LBB2_461
+.LBB2_465:
+	xor	edi, edi
+.LBB2_466:
 	test	r9b, 1
-	je	.LBB2_365
-# %bb.364:
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
-.LBB2_365:
-	cmp	rsi, r10
-	je	.LBB2_517
-	jmp	.LBB2_366
-.LBB2_370:
-	xor	edi, edi
-.LBB2_371:
-	test	bl, 1
-	je	.LBB2_373
-# %bb.372:
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
-.LBB2_373:
+	je	.LBB2_468
+# %bb.467:
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vaddpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
+.LBB2_468:
 	cmp	rdx, rax
-	je	.LBB2_517
-	jmp	.LBB2_374
-.LBB2_378:
-	xor	ebx, ebx
-.LBB2_379:
-	test	r9b, 1
-	je	.LBB2_381
-# %bb.380:
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
-.LBB2_381:
-	cmp	rsi, r10
-	je	.LBB2_517
-	jmp	.LBB2_382
-.LBB2_386:
-	xor	ebx, ebx
-.LBB2_387:
-	test	r9b, 1
-	je	.LBB2_389
-# %bb.388:
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
-.LBB2_389:
-	cmp	rsi, r10
-	je	.LBB2_517
-	jmp	.LBB2_390
-.LBB2_394:
-	xor	ebx, ebx
-.LBB2_395:
-	test	r11b, 1
-	je	.LBB2_397
-# %bb.396:
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
-.LBB2_397:
-	cmp	rsi, r10
-	je	.LBB2_474
-	jmp	.LBB2_398
-.LBB2_402:
-	xor	ebx, ebx
-.LBB2_403:
-	test	r10b, 1
-	je	.LBB2_405
-# %bb.404:
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 64]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx + 8*rbx + 96]
-	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm1
-.LBB2_405:
-	cmp	rsi, r11
-	je	.LBB2_474
-	jmp	.LBB2_406
-.LBB2_410:
-	xor	ebx, ebx
-.LBB2_411:
-	test	r11b, 1
-	je	.LBB2_413
-# %bb.412:
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
-.LBB2_413:
-	cmp	rsi, r10
-	je	.LBB2_474
-	jmp	.LBB2_414
-.LBB2_418:
-	xor	ebx, ebx
-.LBB2_419:
-	test	r11b, 1
-	je	.LBB2_421
-# %bb.420:
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
-.LBB2_421:
-	cmp	rsi, r10
-	je	.LBB2_474
-	jmp	.LBB2_422
-.LBB2_426:
-	xor	ebx, ebx
-.LBB2_427:
-	test	r11b, 1
-	je	.LBB2_429
-# %bb.428:
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
-	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
-.LBB2_429:
-	cmp	rsi, r10
-	je	.LBB2_474
-	jmp	.LBB2_430
-.LBB2_434:
-	xor	ebx, ebx
-.LBB2_435:
-	test	r11b, 1
-	je	.LBB2_437
-# %bb.436:
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
-	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
-.LBB2_437:
-	cmp	rsi, r10
-	je	.LBB2_474
-	jmp	.LBB2_438
-.LBB2_442:
-	xor	ebx, ebx
-.LBB2_443:
-	test	r11b, 1
-	je	.LBB2_445
-# %bb.444:
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
-.LBB2_445:
-	cmp	rsi, r10
-	je	.LBB2_474
-	jmp	.LBB2_446
-.LBB2_450:
-	xor	ebx, ebx
-.LBB2_451:
-	test	r10b, 1
-	je	.LBB2_453
-# %bb.452:
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 64]
-	vaddps	ymm1, ymm1, ymmword ptr [rcx + 4*rbx + 96]
-	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
-	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm1
-.LBB2_453:
-	cmp	rsi, r11
-	je	.LBB2_474
-	jmp	.LBB2_454
-.LBB2_458:
-	xor	ebx, ebx
-.LBB2_459:
-	test	r11b, 1
-	je	.LBB2_461
-# %bb.460:
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
-.LBB2_461:
-	cmp	rsi, r10
-	je	.LBB2_474
-	jmp	.LBB2_462
-.LBB2_466:
-	xor	ebx, ebx
-.LBB2_467:
-	test	r11b, 1
-	je	.LBB2_469
-# %bb.468:
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
-.LBB2_469:
-	cmp	rsi, r10
-	jne	.LBB2_470
+	je	.LBB2_737
+	jmp	.LBB2_469
+.LBB2_473:
+	xor	edi, edi
 .LBB2_474:
-	cmp	edi, 6
-	jg	.LBB2_482
+	test	r9b, 1
+	je	.LBB2_476
 # %bb.475:
-	cmp	edi, 3
-	jle	.LBB2_489
-# %bb.476:
-	cmp	edi, 4
-	je	.LBB2_499
-# %bb.477:
-	cmp	edi, 5
-	je	.LBB2_502
-# %bb.478:
-	cmp	edi, 6
-	jne	.LBB2_13
-# %bb.479:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.480:
-	mov	r14d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_481
-# %bb.518:
-	lea	rax, [rcx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB2_548
-# %bb.519:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_548
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
+.LBB2_476:
+	cmp	rdx, rax
+	je	.LBB2_737
+	jmp	.LBB2_477
 .LBB2_481:
-	xor	esi, esi
-.LBB2_582:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_584
-	.p2align	4, 0x90
-.LBB2_583:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_583
-.LBB2_584:
-	cmp	r11, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_585:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r14d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r14d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r14d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_585
-	jmp	.LBB2_13
+	xor	edi, edi
 .LBB2_482:
-	cmp	edi, 8
-	jle	.LBB2_494
+	test	r9b, 1
+	je	.LBB2_484
 # %bb.483:
-	cmp	edi, 9
-	je	.LBB2_505
-# %bb.484:
-	cmp	edi, 11
-	je	.LBB2_508
-# %bb.485:
-	cmp	edi, 12
-	jne	.LBB2_13
-# %bb.486:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.487:
-	vmovsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	r11d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_488
-# %bb.521:
-	lea	rax, [rcx + 8*r11]
-	cmp	rax, r8
-	jbe	.LBB2_551
-# %bb.522:
-	lea	rax, [r8 + 8*r11]
-	cmp	rax, rcx
-	jbe	.LBB2_551
-.LBB2_488:
-	xor	esi, esi
-.LBB2_590:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB2_592
-	.p2align	4, 0x90
-.LBB2_591:                              # =>This Inner Loop Header: Depth=1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_591
-.LBB2_592:
-	cmp	rax, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_593:                              # =>This Inner Loop Header: Depth=1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rsi]
-	vmovsd	qword ptr [r8 + 8*rsi], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 8]
-	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 16]
-	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rsi + 24]
-	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB2_593
-	jmp	.LBB2_13
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB2_484:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_485
 .LBB2_489:
-	cmp	edi, 2
-	je	.LBB2_511
-# %bb.490:
-	cmp	edi, 3
-	jne	.LBB2_13
+	xor	edi, edi
+.LBB2_490:
+	test	r9b, 1
+	je	.LBB2_492
 # %bb.491:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.492:
-	mov	r14b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_493
-# %bb.524:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_554
-# %bb.525:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_554
-.LBB2_493:
-	xor	esi, esi
-.LBB2_598:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_600
-	.p2align	4, 0x90
-.LBB2_599:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_599
-.LBB2_600:
-	cmp	r11, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_601:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, r14d
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	mov	eax, r14d
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	mov	eax, r14d
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_601
-	jmp	.LBB2_13
-.LBB2_494:
-	cmp	edi, 7
-	je	.LBB2_514
-# %bb.495:
-	cmp	edi, 8
-	jne	.LBB2_13
-# %bb.496:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.497:
-	mov	r14, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_498
-# %bb.527:
-	lea	rax, [rcx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB2_557
-# %bb.528:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_557
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB2_492:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_493
+.LBB2_497:
+	xor	edi, edi
 .LBB2_498:
-	xor	esi, esi
-.LBB2_606:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_608
-	.p2align	4, 0x90
-.LBB2_607:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_607
-.LBB2_608:
-	cmp	r11, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_609:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_609
-	jmp	.LBB2_13
-.LBB2_499:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.500:
-	movzx	r14d, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_501
-# %bb.530:
-	lea	rax, [rcx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB2_560
-# %bb.531:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_560
-.LBB2_501:
-	xor	esi, esi
-.LBB2_614:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB2_616
-	.p2align	4, 0x90
-.LBB2_615:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, r14d
-	sub	bx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], bx
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB2_615
-.LBB2_616:
-	cmp	r11, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_617:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_617
-	jmp	.LBB2_13
-.LBB2_502:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.503:
-	movzx	r14d, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_504
-# %bb.533:
-	lea	rax, [rcx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB2_563
-# %bb.534:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_563
-.LBB2_504:
-	xor	esi, esi
-.LBB2_622:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB2_624
-	.p2align	4, 0x90
-.LBB2_623:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, r14d
-	sub	bx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], bx
-	add	rsi, 1
-	add	rax, -1
-	jne	.LBB2_623
-.LBB2_624:
-	cmp	r11, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_625:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_625
-	jmp	.LBB2_13
+	test	r9b, 1
+	je	.LBB2_500
+# %bb.499:
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB2_500:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_501
 .LBB2_505:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.506:
-	mov	r14, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_507
-# %bb.536:
-	lea	rax, [rcx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB2_566
-# %bb.537:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_566
-.LBB2_507:
-	xor	esi, esi
-.LBB2_630:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_632
-	.p2align	4, 0x90
-.LBB2_631:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_631
-.LBB2_632:
-	cmp	r11, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_633:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_633
-	jmp	.LBB2_13
+	xor	edi, edi
+.LBB2_506:
+	test	r9b, 1
+	je	.LBB2_508
+# %bb.507:
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
 .LBB2_508:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.509:
-	vmovss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	r11d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_510
-# %bb.539:
-	lea	rax, [rcx + 4*r11]
-	cmp	rax, r8
-	jbe	.LBB2_569
-# %bb.540:
-	lea	rax, [r8 + 4*r11]
-	cmp	rax, rcx
-	jbe	.LBB2_569
-.LBB2_510:
-	xor	esi, esi
-.LBB2_638:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB2_640
-	.p2align	4, 0x90
-.LBB2_639:                              # =>This Inner Loop Header: Depth=1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_639
-.LBB2_640:
-	cmp	rax, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_641:                              # =>This Inner Loop Header: Depth=1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rsi]
-	vmovss	dword ptr [r8 + 4*rsi], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 4]
-	vmovss	dword ptr [r8 + 4*rsi + 4], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 8]
-	vmovss	dword ptr [r8 + 4*rsi + 8], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rsi + 12]
-	vmovss	dword ptr [r8 + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB2_641
-	jmp	.LBB2_13
-.LBB2_511:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.512:
-	mov	r14b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 128
-	jb	.LBB2_513
-# %bb.542:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_572
-# %bb.543:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_572
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_509
 .LBB2_513:
-	xor	esi, esi
-.LBB2_646:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_648
-	.p2align	4, 0x90
-.LBB2_647:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_647
-.LBB2_648:
-	cmp	r11, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_649:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, r14d
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	mov	eax, r14d
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	mov	eax, r14d
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_649
-	jmp	.LBB2_13
-.LBB2_514:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.515:
-	mov	r14d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_516
-# %bb.545:
-	lea	rax, [rcx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB2_575
-# %bb.546:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_575
+	xor	edi, edi
+.LBB2_514:
+	test	r9b, 1
+	je	.LBB2_516
+# %bb.515:
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
 .LBB2_516:
-	xor	esi, esi
-.LBB2_654:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_656
-	.p2align	4, 0x90
-.LBB2_655:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_655
-.LBB2_656:
-	cmp	r11, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_657:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r14d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r14d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r14d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_657
-	jmp	.LBB2_13
-.LBB2_517:
-	lea	rsp, [rbp - 16]
-	pop	rbx
-	pop	r14
-	pop	rbp
-	vzeroupper
-	ret
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_517
+.LBB2_521:
+	xor	edi, edi
+.LBB2_522:
+	test	r9b, 1
+	je	.LBB2_524
+# %bb.523:
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_524:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_525
+.LBB2_529:
+	xor	edi, edi
+.LBB2_530:
+	test	r9b, 1
+	je	.LBB2_532
+# %bb.531:
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_532:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_533
+.LBB2_537:
+	xor	edi, edi
+.LBB2_538:
+	test	r9b, 1
+	je	.LBB2_540
+# %bb.539:
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_540:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_541
+.LBB2_545:
+	xor	edi, edi
+.LBB2_546:
+	test	r9b, 1
+	je	.LBB2_548
+# %bb.547:
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
 .LBB2_548:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastd	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_578
-# %bb.549:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_550:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_550
-	jmp	.LBB2_579
-.LBB2_551:
-	mov	esi, r11d
-	and	esi, -16
-	vbroadcastsd	ymm1, xmm0
-	lea	rax, [rsi - 16]
-	mov	r10, rax
-	shr	r10, 4
-	add	r10, 1
-	test	rax, rax
-	je	.LBB2_586
-# %bb.552:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_553:                              # =>This Inner Loop Header: Depth=1
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 32]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 64]
-	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rbx + 96]
-	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm5
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx + 128]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 160]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 192]
-	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rbx + 224]
-	vmovupd	ymmword ptr [r8 + 8*rbx + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rbx + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rbx + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rbx + 224], ymm5
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB2_553
-	jmp	.LBB2_587
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_549
+.LBB2_553:
+	xor	edi, edi
 .LBB2_554:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	lea	rax, [rsi - 128]
-	mov	r11, rax
-	shr	r11, 7
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_594
+	test	r9b, 1
+	je	.LBB2_556
 # %bb.555:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_556:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rbx + 224]
-	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
-	add	rbx, 256
-	add	rax, 2
-	jne	.LBB2_556
-	jmp	.LBB2_595
-.LBB2_557:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r14
-	vpbroadcastq	ymm0, xmm0
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_602
-# %bb.558:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_559:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB2_559
-	jmp	.LBB2_603
-.LBB2_560:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastw	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_610
-# %bb.561:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_562:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_562
-	jmp	.LBB2_611
-.LBB2_563:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastw	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_618
-# %bb.564:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_565:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 64], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 96], ymm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_565
-	jmp	.LBB2_619
-.LBB2_566:
-	mov	esi, r10d
-	and	esi, -16
-	vmovq	xmm0, r14
-	vpbroadcastq	ymm0, xmm0
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_626
-# %bb.567:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_568:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 224], ymm4
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB2_568
-	jmp	.LBB2_627
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_556:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_557
+.LBB2_561:
+	xor	edi, edi
+.LBB2_562:
+	test	r9b, 1
+	je	.LBB2_564
+# %bb.563:
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_564:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_565
 .LBB2_569:
-	mov	esi, r11d
-	and	esi, -32
-	vbroadcastss	ymm1, xmm0
-	lea	rax, [rsi - 32]
-	mov	r10, rax
-	shr	r10, 5
-	add	r10, 1
-	test	rax, rax
-	je	.LBB2_634
-# %bb.570:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_571:                              # =>This Inner Loop Header: Depth=1
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 32]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 64]
-	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rbx + 96]
-	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
-	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm5
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx + 128]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 160]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 192]
-	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rbx + 224]
-	vmovups	ymmword ptr [r8 + 4*rbx + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rbx + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rbx + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rbx + 224], ymm5
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_571
-	jmp	.LBB2_635
+	xor	edi, edi
+.LBB2_570:
+	test	r9b, 1
+	je	.LBB2_572
+# %bb.571:
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
 .LBB2_572:
-	mov	esi, r10d
-	and	esi, -128
-	vmovd	xmm0, r14d
-	vpbroadcastb	ymm0, xmm0
-	lea	rax, [rsi - 128]
-	mov	r11, rax
-	shr	r11, 7
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_642
-# %bb.573:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_574:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rbx + 224]
-	vmovdqu	ymmword ptr [r8 + rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 224], ymm4
-	add	rbx, 256
-	add	rax, 2
-	jne	.LBB2_574
-	jmp	.LBB2_643
-.LBB2_575:
-	mov	esi, r10d
-	and	esi, -32
-	vmovd	xmm0, r14d
-	vpbroadcastd	ymm0, xmm0
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_650
-# %bb.576:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_577:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rbx + 224]
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 128], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 160], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 192], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 224], ymm4
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_577
-	jmp	.LBB2_651
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_573
+.LBB2_577:
+	xor	edi, edi
 .LBB2_578:
-	xor	ebx, ebx
-.LBB2_579:
-	test	r11b, 1
-	je	.LBB2_581
-# %bb.580:
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
-.LBB2_581:
+	test	r9b, 1
+	je	.LBB2_580
+# %bb.579:
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_580:
 	cmp	rsi, r10
-	je	.LBB2_13
-	jmp	.LBB2_582
+	je	.LBB2_737
+	jmp	.LBB2_581
+.LBB2_585:
+	xor	edi, edi
 .LBB2_586:
-	xor	ebx, ebx
-.LBB2_587:
-	test	r10b, 1
-	je	.LBB2_589
-# %bb.588:
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 32]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 64]
-	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rbx + 96]
-	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm1
-.LBB2_589:
-	cmp	rsi, r11
-	je	.LBB2_13
-	jmp	.LBB2_590
+	test	r9b, 1
+	je	.LBB2_588
+# %bb.587:
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_588:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_589
+.LBB2_593:
+	xor	edi, edi
 .LBB2_594:
-	xor	ebx, ebx
-.LBB2_595:
-	test	r11b, 1
-	je	.LBB2_597
-# %bb.596:
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
-.LBB2_597:
+	test	r9b, 1
+	je	.LBB2_596
+# %bb.595:
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_596:
 	cmp	rsi, r10
-	je	.LBB2_13
-	jmp	.LBB2_598
+	je	.LBB2_737
+	jmp	.LBB2_597
+.LBB2_601:
+	xor	edi, edi
 .LBB2_602:
-	xor	ebx, ebx
-.LBB2_603:
-	test	r11b, 1
-	je	.LBB2_605
-# %bb.604:
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
-.LBB2_605:
+	test	r9b, 1
+	je	.LBB2_604
+# %bb.603:
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
+.LBB2_604:
 	cmp	rsi, r10
-	je	.LBB2_13
-	jmp	.LBB2_606
+	je	.LBB2_737
+	jmp	.LBB2_605
+.LBB2_609:
+	xor	edi, edi
 .LBB2_610:
-	xor	ebx, ebx
-.LBB2_611:
-	test	r11b, 1
-	je	.LBB2_613
-# %bb.612:
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
-.LBB2_613:
+	test	r9b, 1
+	je	.LBB2_612
+# %bb.611:
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_612:
 	cmp	rsi, r10
-	je	.LBB2_13
-	jmp	.LBB2_614
+	je	.LBB2_737
+	jmp	.LBB2_613
+.LBB2_617:
+	xor	edi, edi
 .LBB2_618:
-	xor	ebx, ebx
-.LBB2_619:
-	test	r11b, 1
-	je	.LBB2_621
-# %bb.620:
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
-.LBB2_621:
-	cmp	rsi, r10
-	je	.LBB2_13
-	jmp	.LBB2_622
+	test	r9b, 1
+	je	.LBB2_620
+# %bb.619:
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vaddps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+.LBB2_620:
+	cmp	rdx, rax
+	je	.LBB2_737
+	jmp	.LBB2_621
+.LBB2_625:
+	xor	edi, edi
 .LBB2_626:
-	xor	ebx, ebx
-.LBB2_627:
-	test	r11b, 1
-	je	.LBB2_629
-# %bb.628:
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
-.LBB2_629:
+	test	r9b, 1
+	je	.LBB2_628
+# %bb.627:
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_628:
 	cmp	rsi, r10
-	je	.LBB2_13
-	jmp	.LBB2_630
+	je	.LBB2_737
+	jmp	.LBB2_629
+.LBB2_633:
+	xor	edi, edi
 .LBB2_634:
-	xor	ebx, ebx
-.LBB2_635:
-	test	r10b, 1
-	je	.LBB2_637
-# %bb.636:
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 32]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 64]
-	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rbx + 96]
-	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
-	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm1
-.LBB2_637:
-	cmp	rsi, r11
-	je	.LBB2_13
-	jmp	.LBB2_638
+	test	r9b, 1
+	je	.LBB2_636
+# %bb.635:
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+.LBB2_636:
+	cmp	rdx, rax
+	je	.LBB2_737
+	jmp	.LBB2_637
+.LBB2_641:
+	xor	edi, edi
 .LBB2_642:
-	xor	ebx, ebx
-.LBB2_643:
-	test	r11b, 1
-	je	.LBB2_645
-# %bb.644:
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rbx]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
-.LBB2_645:
+	test	r9b, 1
+	je	.LBB2_644
+# %bb.643:
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_644:
 	cmp	rsi, r10
-	je	.LBB2_13
-	jmp	.LBB2_646
+	je	.LBB2_737
+	jmp	.LBB2_645
+.LBB2_649:
+	xor	edi, edi
 .LBB2_650:
-	xor	ebx, ebx
-.LBB2_651:
-	test	r11b, 1
-	je	.LBB2_653
-# %bb.652:
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
-.LBB2_653:
-	cmp	rsi, r10
-	je	.LBB2_13
-	jmp	.LBB2_654
+	test	r9b, 1
+	je	.LBB2_652
+# %bb.651:
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vaddps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+.LBB2_652:
+	cmp	rdx, rax
+	je	.LBB2_737
+	jmp	.LBB2_653
+.LBB2_657:
+	xor	edi, edi
 .LBB2_658:
-	xor	ebx, ebx
-.LBB2_659:
-	test	r11b, 1
-	je	.LBB2_661
-# %bb.660:
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
-.LBB2_661:
+	test	r9b, 1
+	je	.LBB2_660
+# %bb.659:
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm0
+.LBB2_660:
 	cmp	rsi, r10
-	je	.LBB2_3
-	jmp	.LBB2_662
+	je	.LBB2_737
+	jmp	.LBB2_661
+.LBB2_665:
+	xor	edi, edi
 .LBB2_666:
-	xor	ebx, ebx
-.LBB2_667:
-	test	r10b, 1
-	je	.LBB2_669
-# %bb.668:
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rbx]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rbx + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rbx + 64]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx + 8*rbx + 96]
-	vmovupd	ymmword ptr [r8 + 8*rbx], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rbx + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rbx + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rbx + 96], ymm1
-.LBB2_669:
-	cmp	rsi, r11
-	je	.LBB2_3
-	jmp	.LBB2_670
+	test	r9b, 1
+	je	.LBB2_668
+# %bb.667:
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+.LBB2_668:
+	cmp	rdx, rax
+	je	.LBB2_737
+	jmp	.LBB2_669
+.LBB2_673:
+	xor	edi, edi
 .LBB2_674:
-	xor	ebx, ebx
-.LBB2_675:
-	test	r11b, 1
-	je	.LBB2_677
-# %bb.676:
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
-.LBB2_677:
+	test	r9b, 1
+	je	.LBB2_676
+# %bb.675:
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB2_676:
 	cmp	rsi, r10
-	je	.LBB2_3
-	jmp	.LBB2_678
+	je	.LBB2_737
+	jmp	.LBB2_677
+.LBB2_681:
+	xor	edi, edi
 .LBB2_682:
-	xor	ebx, ebx
-.LBB2_683:
-	test	r11b, 1
-	je	.LBB2_685
-# %bb.684:
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
-.LBB2_685:
+	test	r9b, 1
+	je	.LBB2_684
+# %bb.683:
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB2_684:
 	cmp	rsi, r10
-	je	.LBB2_3
-	jmp	.LBB2_686
+	je	.LBB2_737
+	jmp	.LBB2_685
+.LBB2_689:
+	xor	edi, edi
 .LBB2_690:
-	xor	ebx, ebx
-.LBB2_691:
-	test	r11b, 1
-	je	.LBB2_693
-# %bb.692:
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
-	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
-.LBB2_693:
+	test	r9b, 1
+	je	.LBB2_692
+# %bb.691:
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB2_692:
 	cmp	rsi, r10
-	je	.LBB2_3
-	jmp	.LBB2_694
+	je	.LBB2_737
+	jmp	.LBB2_693
+.LBB2_697:
+	xor	edi, edi
 .LBB2_698:
-	xor	ebx, ebx
-.LBB2_699:
-	test	r11b, 1
-	je	.LBB2_701
-# %bb.700:
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rbx]
-	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rbx + 32]
-	vmovdqu	ymmword ptr [r8 + 2*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 2*rbx + 32], ymm0
-.LBB2_701:
+	test	r9b, 1
+	je	.LBB2_700
+# %bb.699:
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vmovdqu	ymmword ptr [r8 + rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm0
+.LBB2_700:
 	cmp	rsi, r10
-	je	.LBB2_3
-	jmp	.LBB2_702
+	je	.LBB2_737
+	jmp	.LBB2_701
+.LBB2_705:
+	xor	edi, edi
 .LBB2_706:
-	xor	ebx, ebx
-.LBB2_707:
-	test	r11b, 1
-	je	.LBB2_709
-# %bb.708:
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rbx]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rbx + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rbx + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 8*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 8*rbx + 96], ymm0
-.LBB2_709:
+	test	r9b, 1
+	je	.LBB2_708
+# %bb.707:
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_708:
 	cmp	rsi, r10
-	je	.LBB2_3
-	jmp	.LBB2_710
+	je	.LBB2_737
+	jmp	.LBB2_709
+.LBB2_713:
+	xor	edi, edi
 .LBB2_714:
-	xor	ebx, ebx
-.LBB2_715:
-	test	r10b, 1
-	je	.LBB2_717
-# %bb.716:
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rbx]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rbx + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rbx + 64]
-	vaddps	ymm1, ymm1, ymmword ptr [rcx + 4*rbx + 96]
-	vmovups	ymmword ptr [r8 + 4*rbx], ymm2
-	vmovups	ymmword ptr [r8 + 4*rbx + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rbx + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rbx + 96], ymm1
-.LBB2_717:
-	cmp	rsi, r11
-	je	.LBB2_3
-	jmp	.LBB2_718
+	test	r9b, 1
+	je	.LBB2_716
+# %bb.715:
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_716:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_717
+.LBB2_721:
+	xor	edi, edi
 .LBB2_722:
-	xor	ebx, ebx
-.LBB2_723:
-	test	r11b, 1
-	je	.LBB2_725
-# %bb.724:
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rbx]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rbx + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rbx + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rbx + 96]
-	vmovdqu	ymmword ptr [r8 + rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + rbx + 96], ymm0
-.LBB2_725:
+	test	r9b, 1
+	je	.LBB2_724
+# %bb.723:
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_724:
 	cmp	rsi, r10
-	je	.LBB2_3
-	jmp	.LBB2_726
+	je	.LBB2_737
+	jmp	.LBB2_725
+.LBB2_729:
+	xor	edi, edi
 .LBB2_730:
-	xor	ebx, ebx
-.LBB2_731:
-	test	r11b, 1
-	je	.LBB2_733
-# %bb.732:
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rbx]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rbx + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rbx + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rbx + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rbx], ymm1
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 32], ymm2
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 64], ymm3
-	vmovdqu	ymmword ptr [r8 + 4*rbx + 96], ymm0
-.LBB2_733:
+	test	r9b, 1
+	je	.LBB2_732
+# %bb.731:
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm0
+.LBB2_732:
 	cmp	rsi, r10
-	je	.LBB2_3
-	jmp	.LBB2_734
+	jne	.LBB2_733
+.LBB2_737:
+	mov	rsp, rbp
+	pop	rbp
+	vzeroupper
+	ret
 .Lfunc_end2:
 	.size	arithmetic_scalar_arr_avx2, .Lfunc_end2-arithmetic_scalar_arr_avx2
                                         # -- End function
diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s
index 4b5bdf36b1b..9862cdb8a68 100644
--- a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s
+++ b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s
@@ -8,61 +8,57 @@ arithmetic_sse4:                        # @arithmetic_sse4
 # %bb.0:
 	push	rbp
 	mov	rbp, rsp
-	push	r14
-	push	rbx
 	and	rsp, -8
 	cmp	sil, 1
-	jg	.LBB0_3
+	jg	.LBB0_10
 # %bb.1:
 	test	sil, sil
-	je	.LBB0_5
+	je	.LBB0_19
 # %bb.2:
 	cmp	sil, 1
 	jne	.LBB0_697
-.LBB0_178:
+# %bb.3:
 	cmp	edi, 6
-	jg	.LBB0_191
-# %bb.179:
+	jg	.LBB0_198
+# %bb.4:
 	cmp	edi, 3
-	jle	.LBB0_180
-# %bb.185:
+	jle	.LBB0_5
+# %bb.192:
 	cmp	edi, 4
-	je	.LBB0_232
-# %bb.186:
+	je	.LBB0_239
+# %bb.193:
 	cmp	edi, 5
-	je	.LBB0_248
-# %bb.187:
+	je	.LBB0_255
+# %bb.194:
 	cmp	edi, 6
-	jne	.LBB0_351
-# %bb.188:
+	jne	.LBB0_697
+# %bb.195:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.189:
+# %bb.196:
 	mov	r10d, r9d
 	cmp	r9d, 8
-	jae	.LBB0_264
-# %bb.190:
+	jae	.LBB0_271
+# %bb.197:
 	xor	esi, esi
-.LBB0_273:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_275
-	.p2align	4, 0x90
-.LBB0_274:                              # =>This Inner Loop Header: Depth=1
+.LBB0_280:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_282
+.LBB0_281:                              # =>This Inner Loop Header: Depth=1
 	mov	eax, dword ptr [rcx + 4*rsi]
 	add	eax, dword ptr [rdx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_274
-.LBB0_275:
-	cmp	r11, 3
-	jb	.LBB0_351
-	.p2align	4, 0x90
-.LBB0_276:                              # =>This Inner Loop Header: Depth=1
+	add	rdi, -1
+	jne	.LBB0_281
+.LBB0_282:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_283:                              # =>This Inner Loop Header: Depth=1
 	mov	eax, dword ptr [rcx + 4*rsi]
 	add	eax, dword ptr [rdx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
@@ -77,20 +73,20 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_276
-	jmp	.LBB0_351
-.LBB0_3:
+	jne	.LBB0_283
+	jmp	.LBB0_697
+.LBB0_10:
 	cmp	sil, 2
-	je	.LBB0_351
-# %bb.4:
+	je	.LBB0_358
+# %bb.11:
 	cmp	sil, 3
 	jne	.LBB0_697
-.LBB0_524:
+# %bb.12:
 	cmp	edi, 6
 	jg	.LBB0_537
-# %bb.525:
+# %bb.13:
 	cmp	edi, 3
-	jle	.LBB0_526
+	jle	.LBB0_14
 # %bb.531:
 	cmp	edi, 4
 	je	.LBB0_578
@@ -110,24 +106,22 @@ arithmetic_sse4:                        # @arithmetic_sse4
 # %bb.536:
 	xor	esi, esi
 .LBB0_619:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
 	je	.LBB0_621
-	.p2align	4, 0x90
 .LBB0_620:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, dword ptr [rdx + 4*rsi]
-	sub	ebx, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], ebx
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
 	add	rsi, 1
-	add	rax, -1
+	add	rdi, -1
 	jne	.LBB0_620
 .LBB0_621:
-	cmp	rdi, 3
+	cmp	r9, 3
 	jb	.LBB0_697
-	.p2align	4, 0x90
 .LBB0_622:                              # =>This Inner Loop Header: Depth=1
 	mov	eax, dword ptr [rdx + 4*rsi]
 	sub	eax, dword ptr [rcx + 4*rsi]
@@ -145,6 +139,177 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	r10, rsi
 	jne	.LBB0_622
 	jmp	.LBB0_697
+.LBB0_19:
+	cmp	edi, 6
+	jg	.LBB0_32
+# %bb.20:
+	cmp	edi, 3
+	jle	.LBB0_21
+# %bb.26:
+	cmp	edi, 4
+	je	.LBB0_73
+# %bb.27:
+	cmp	edi, 5
+	je	.LBB0_89
+# %bb.28:
+	cmp	edi, 6
+	jne	.LBB0_697
+# %bb.29:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.30:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_105
+# %bb.31:
+	xor	esi, esi
+.LBB0_114:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_116
+.LBB0_115:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_115
+.LBB0_116:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_117:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_117
+	jmp	.LBB0_697
+.LBB0_358:
+	cmp	edi, 6
+	jg	.LBB0_371
+# %bb.359:
+	cmp	edi, 3
+	jle	.LBB0_360
+# %bb.365:
+	cmp	edi, 4
+	je	.LBB0_412
+# %bb.366:
+	cmp	edi, 5
+	je	.LBB0_428
+# %bb.367:
+	cmp	edi, 6
+	jne	.LBB0_697
+# %bb.368:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.369:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_444
+# %bb.370:
+	xor	esi, esi
+.LBB0_453:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_455
+.LBB0_454:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_454
+.LBB0_455:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_456:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_456
+	jmp	.LBB0_697
+.LBB0_198:
+	cmp	edi, 8
+	jle	.LBB0_199
+# %bb.204:
+	cmp	edi, 9
+	je	.LBB0_313
+# %bb.205:
+	cmp	edi, 11
+	je	.LBB0_329
+# %bb.206:
+	cmp	edi, 12
+	jne	.LBB0_697
+# %bb.207:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.208:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_345
+# %bb.209:
+	xor	esi, esi
+.LBB0_354:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_356
+.LBB0_355:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_355
+.LBB0_356:
+	cmp	rax, 3
+	jb	.LBB0_697
+.LBB0_357:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi]
+	movsd	qword ptr [r8 + 8*rsi], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 8]
+	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 16]
+	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 24]
+	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_357
+	jmp	.LBB0_697
 .LBB0_537:
 	cmp	edi, 8
 	jle	.LBB0_538
@@ -167,24 +332,22 @@ arithmetic_sse4:                        # @arithmetic_sse4
 # %bb.548:
 	xor	esi, esi
 .LBB0_693:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rdi, r10
+	and	rdi, 3
 	je	.LBB0_695
-	.p2align	4, 0x90
 .LBB0_694:                              # =>This Inner Loop Header: Depth=1
 	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
 	subsd	xmm0, qword ptr [rcx + 8*rsi]
 	movsd	qword ptr [r8 + 8*rsi], xmm0
 	add	rsi, 1
-	add	rax, -1
+	add	rdi, -1
 	jne	.LBB0_694
 .LBB0_695:
-	cmp	rdi, 3
+	cmp	rax, 3
 	jb	.LBB0_697
-	.p2align	4, 0x90
 .LBB0_696:                              # =>This Inner Loop Header: Depth=1
 	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
 	subsd	xmm0, qword ptr [rcx + 8*rsi]
@@ -202,105 +365,45 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	r10, rsi
 	jne	.LBB0_696
 	jmp	.LBB0_697
-.LBB0_5:
-	cmp	edi, 6
-	jg	.LBB0_18
-# %bb.6:
-	cmp	edi, 3
-	jle	.LBB0_7
-# %bb.12:
-	cmp	edi, 4
-	je	.LBB0_59
-# %bb.13:
-	cmp	edi, 5
-	je	.LBB0_75
-# %bb.14:
-	cmp	edi, 6
-	jne	.LBB0_178
-# %bb.15:
-	test	r9d, r9d
-	jle	.LBB0_697
-# %bb.16:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_91
-# %bb.17:
-	xor	esi, esi
-.LBB0_100:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_102
-.LBB0_101:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_101
-.LBB0_102:
-	cmp	r11, 3
-	jb	.LBB0_178
-.LBB0_103:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_103
-	jmp	.LBB0_178
-.LBB0_191:
+.LBB0_32:
 	cmp	edi, 8
-	jle	.LBB0_192
-# %bb.197:
+	jle	.LBB0_33
+# %bb.38:
 	cmp	edi, 9
-	je	.LBB0_306
-# %bb.198:
+	je	.LBB0_147
+# %bb.39:
 	cmp	edi, 11
-	je	.LBB0_322
-# %bb.199:
+	je	.LBB0_163
+# %bb.40:
 	cmp	edi, 12
-	jne	.LBB0_351
-# %bb.200:
+	jne	.LBB0_697
+# %bb.41:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.201:
+# %bb.42:
 	mov	r10d, r9d
 	cmp	r9d, 4
-	jae	.LBB0_338
-# %bb.202:
+	jae	.LBB0_179
+# %bb.43:
 	xor	esi, esi
-.LBB0_347:
+.LBB0_188:
 	mov	rax, rsi
 	not	rax
 	add	rax, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_349
-	.p2align	4, 0x90
-.LBB0_348:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_190
+.LBB0_189:                              # =>This Inner Loop Header: Depth=1
 	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
 	addsd	xmm0, qword ptr [rdx + 8*rsi]
 	movsd	qword ptr [r8 + 8*rsi], xmm0
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_348
-.LBB0_349:
+	add	rdi, -1
+	jne	.LBB0_189
+.LBB0_190:
 	cmp	rax, 3
-	jb	.LBB0_351
-	.p2align	4, 0x90
-.LBB0_350:                              # =>This Inner Loop Header: Depth=1
+	jb	.LBB0_697
+.LBB0_191:                              # =>This Inner Loop Header: Depth=1
 	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
 	addsd	xmm0, qword ptr [rdx + 8*rsi]
 	movsd	qword ptr [r8 + 8*rsi], xmm0
@@ -315,97 +418,144 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_350
-	jmp	.LBB0_351
-.LBB0_18:
+	jne	.LBB0_191
+	jmp	.LBB0_697
+.LBB0_371:
 	cmp	edi, 8
-	jle	.LBB0_19
-# %bb.24:
+	jle	.LBB0_372
+# %bb.377:
 	cmp	edi, 9
-	je	.LBB0_133
-# %bb.25:
+	je	.LBB0_486
+# %bb.378:
 	cmp	edi, 11
-	je	.LBB0_149
-# %bb.26:
+	je	.LBB0_502
+# %bb.379:
 	cmp	edi, 12
-	jne	.LBB0_178
-# %bb.27:
+	jne	.LBB0_697
+# %bb.380:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.28:
+# %bb.381:
 	mov	r10d, r9d
 	cmp	r9d, 4
-	jae	.LBB0_165
-# %bb.29:
+	jae	.LBB0_518
+# %bb.382:
 	xor	esi, esi
-.LBB0_174:
+.LBB0_527:
 	mov	rax, rsi
 	not	rax
 	add	rax, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_176
-.LBB0_175:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi]
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_529
+.LBB0_528:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi]
 	movsd	qword ptr [r8 + 8*rsi], xmm0
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_175
-.LBB0_176:
+	add	rdi, -1
+	jne	.LBB0_528
+.LBB0_529:
 	cmp	rax, 3
-	jb	.LBB0_178
-.LBB0_177:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi]
+	jb	.LBB0_697
+.LBB0_530:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi]
 	movsd	qword ptr [r8 + 8*rsi], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 8]
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 8]
 	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 16]
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 16]
 	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 24]
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 24]
 	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_177
-	jmp	.LBB0_178
-.LBB0_526:
+	jne	.LBB0_530
+	jmp	.LBB0_697
+.LBB0_5:
+	cmp	edi, 2
+	je	.LBB0_210
+# %bb.6:
+	cmp	edi, 3
+	jne	.LBB0_697
+# %bb.7:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.8:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_226
+# %bb.9:
+	xor	esi, esi
+.LBB0_235:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_237
+.LBB0_236:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_236
+.LBB0_237:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_238:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_238
+	jmp	.LBB0_697
+.LBB0_14:
 	cmp	edi, 2
 	je	.LBB0_549
-# %bb.527:
+# %bb.15:
 	cmp	edi, 3
 	jne	.LBB0_697
-# %bb.528:
+# %bb.16:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.529:
+# %bb.17:
 	mov	r10d, r9d
 	cmp	r9d, 32
 	jae	.LBB0_565
-# %bb.530:
+# %bb.18:
 	xor	esi, esi
 .LBB0_574:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
 	je	.LBB0_576
-	.p2align	4, 0x90
 .LBB0_575:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, byte ptr [rdx + rsi]
-	sub	bl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], bl
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
-	add	rax, -1
+	add	rdi, -1
 	jne	.LBB0_575
 .LBB0_576:
-	cmp	rdi, 3
+	cmp	r9, 3
 	jb	.LBB0_697
-	.p2align	4, 0x90
 .LBB0_577:                              # =>This Inner Loop Header: Depth=1
 	movzx	eax, byte ptr [rdx + rsi]
 	sub	al, byte ptr [rcx + rsi]
@@ -423,6 +573,153 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	r10, rsi
 	jne	.LBB0_577
 	jmp	.LBB0_697
+.LBB0_21:
+	cmp	edi, 2
+	je	.LBB0_44
+# %bb.22:
+	cmp	edi, 3
+	jne	.LBB0_697
+# %bb.23:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.24:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_60
+# %bb.25:
+	xor	esi, esi
+.LBB0_69:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_71
+.LBB0_70:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_70
+.LBB0_71:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_72:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_72
+	jmp	.LBB0_697
+.LBB0_360:
+	cmp	edi, 2
+	je	.LBB0_383
+# %bb.361:
+	cmp	edi, 3
+	jne	.LBB0_697
+# %bb.362:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.363:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_399
+# %bb.364:
+	xor	esi, esi
+.LBB0_408:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_410
+.LBB0_409:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_409
+.LBB0_410:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_411:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_411
+	jmp	.LBB0_697
+.LBB0_199:
+	cmp	edi, 7
+	je	.LBB0_284
+# %bb.200:
+	cmp	edi, 8
+	jne	.LBB0_697
+# %bb.201:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.202:
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jae	.LBB0_300
+# %bb.203:
+	xor	esi, esi
+.LBB0_309:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_311
+.LBB0_310:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_310
+.LBB0_311:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_312:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_312
+	jmp	.LBB0_697
 .LBB0_538:
 	cmp	edi, 7
 	je	.LBB0_623
@@ -439,24 +736,22 @@ arithmetic_sse4:                        # @arithmetic_sse4
 # %bb.542:
 	xor	esi, esi
 .LBB0_648:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
 	je	.LBB0_650
-	.p2align	4, 0x90
 .LBB0_649:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, qword ptr [rdx + 8*rsi]
-	sub	rbx, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rbx
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
 	add	rsi, 1
-	add	rax, -1
+	add	rdi, -1
 	jne	.LBB0_649
 .LBB0_650:
-	cmp	rdi, 3
+	cmp	r9, 3
 	jb	.LBB0_697
-	.p2align	4, 0x90
 .LBB0_651:                              # =>This Inner Loop Header: Depth=1
 	mov	rax, qword ptr [rdx + 8*rsi]
 	sub	rax, qword ptr [rcx + 8*rsi]
@@ -474,92 +769,39 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	r10, rsi
 	jne	.LBB0_651
 	jmp	.LBB0_697
-.LBB0_180:
-	cmp	edi, 2
-	je	.LBB0_203
-# %bb.181:
-	cmp	edi, 3
-	jne	.LBB0_351
-# %bb.182:
-	test	r9d, r9d
-	jle	.LBB0_697
-# %bb.183:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_219
-# %bb.184:
-	xor	esi, esi
-.LBB0_228:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_230
-	.p2align	4, 0x90
-.LBB0_229:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_229
-.LBB0_230:
-	cmp	r11, 3
-	jb	.LBB0_351
-	.p2align	4, 0x90
-.LBB0_231:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_231
-	jmp	.LBB0_351
-.LBB0_192:
+.LBB0_33:
 	cmp	edi, 7
-	je	.LBB0_277
-# %bb.193:
+	je	.LBB0_118
+# %bb.34:
 	cmp	edi, 8
-	jne	.LBB0_351
-# %bb.194:
+	jne	.LBB0_697
+# %bb.35:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.195:
+# %bb.36:
 	mov	r10d, r9d
 	cmp	r9d, 4
-	jae	.LBB0_293
-# %bb.196:
+	jae	.LBB0_134
+# %bb.37:
 	xor	esi, esi
-.LBB0_302:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_304
-	.p2align	4, 0x90
-.LBB0_303:                              # =>This Inner Loop Header: Depth=1
+.LBB0_143:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_145
+.LBB0_144:                              # =>This Inner Loop Header: Depth=1
 	mov	rax, qword ptr [rcx + 8*rsi]
 	add	rax, qword ptr [rdx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_303
-.LBB0_304:
-	cmp	r11, 3
-	jb	.LBB0_351
-	.p2align	4, 0x90
-.LBB0_305:                              # =>This Inner Loop Header: Depth=1
+	add	rdi, -1
+	jne	.LBB0_144
+.LBB0_145:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_146:                              # =>This Inner Loop Header: Depth=1
 	mov	rax, qword ptr [rcx + 8*rsi]
 	add	rax, qword ptr [rdx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
@@ -574,38 +816,171 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_305
-	jmp	.LBB0_351
-.LBB0_578:
+	jne	.LBB0_146
+	jmp	.LBB0_697
+.LBB0_372:
+	cmp	edi, 7
+	je	.LBB0_457
+# %bb.373:
+	cmp	edi, 8
+	jne	.LBB0_697
+# %bb.374:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.579:
+# %bb.375:
 	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_581
-# %bb.580:
+	cmp	r9d, 4
+	jae	.LBB0_473
+# %bb.376:
 	xor	esi, esi
-.LBB0_590:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_592
-	.p2align	4, 0x90
-.LBB0_591:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rdx + 2*rsi]
-	sub	bx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], bx
+.LBB0_482:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_484
+.LBB0_483:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
 	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_591
-.LBB0_592:
-	cmp	rdi, 3
+	add	rdi, -1
+	jne	.LBB0_483
+.LBB0_484:
+	cmp	r9, 3
 	jb	.LBB0_697
-	.p2align	4, 0x90
-.LBB0_593:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
+.LBB0_485:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_485
+	jmp	.LBB0_697
+.LBB0_239:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.240:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_242
+# %bb.241:
+	xor	esi, esi
+.LBB0_251:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_253
+.LBB0_252:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_252
+.LBB0_253:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_254:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_254
+	jmp	.LBB0_697
+.LBB0_255:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.256:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_258
+# %bb.257:
+	xor	esi, esi
+.LBB0_267:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_269
+.LBB0_268:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_268
+.LBB0_269:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_270:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_270
+	jmp	.LBB0_697
+.LBB0_578:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.579:
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jae	.LBB0_581
+# %bb.580:
+	xor	esi, esi
+.LBB0_590:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_592
+.LBB0_591:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_591
+.LBB0_592:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_593:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
 	sub	ax, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], ax
 	movzx	eax, word ptr [rdx + 2*rsi + 2]
@@ -631,24 +1006,22 @@ arithmetic_sse4:                        # @arithmetic_sse4
 # %bb.596:
 	xor	esi, esi
 .LBB0_606:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
 	je	.LBB0_608
-	.p2align	4, 0x90
 .LBB0_607:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rdx + 2*rsi]
-	sub	bx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], bx
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
 	add	rsi, 1
-	add	rax, -1
+	add	rdi, -1
 	jne	.LBB0_607
 .LBB0_608:
-	cmp	rdi, 3
+	cmp	r9, 3
 	jb	.LBB0_697
-	.p2align	4, 0x90
 .LBB0_609:                              # =>This Inner Loop Header: Depth=1
 	movzx	eax, word ptr [rdx + 2*rsi]
 	sub	ax, word ptr [rcx + 2*rsi]
@@ -666,268 +1039,205 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	r10, rsi
 	jne	.LBB0_609
 	jmp	.LBB0_697
-.LBB0_652:
+.LBB0_73:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.653:
+# %bb.74:
 	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_655
-# %bb.654:
-	xor	esi, esi
-.LBB0_664:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_666
-	.p2align	4, 0x90
-.LBB0_665:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, qword ptr [rdx + 8*rsi]
-	sub	rbx, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rbx
+	cmp	r9d, 16
+	jae	.LBB0_76
+# %bb.75:
+	xor	esi, esi
+.LBB0_85:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_87
+.LBB0_86:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
 	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_665
-.LBB0_666:
-	cmp	rdi, 3
+	add	rdi, -1
+	jne	.LBB0_86
+.LBB0_87:
+	cmp	r9, 3
 	jb	.LBB0_697
-	.p2align	4, 0x90
-.LBB0_667:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
+.LBB0_88:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_667
+	jne	.LBB0_88
 	jmp	.LBB0_697
-.LBB0_668:
+.LBB0_89:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.669:
+# %bb.90:
 	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_671
-# %bb.670:
+	cmp	r9d, 16
+	jae	.LBB0_92
+# %bb.91:
 	xor	esi, esi
-.LBB0_680:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_682
-	.p2align	4, 0x90
-.LBB0_681:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
+.LBB0_101:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_103
+.LBB0_102:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
 	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_681
-.LBB0_682:
-	cmp	rdi, 3
+	add	rdi, -1
+	jne	.LBB0_102
+.LBB0_103:
+	cmp	r9, 3
 	jb	.LBB0_697
-	.p2align	4, 0x90
-.LBB0_683:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 4]
-	movss	dword ptr [r8 + 4*rsi + 4], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 8]
-	movss	dword ptr [r8 + 4*rsi + 8], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 12]
-	movss	dword ptr [r8 + 4*rsi + 12], xmm0
+.LBB0_104:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_683
+	jne	.LBB0_104
 	jmp	.LBB0_697
-.LBB0_549:
+.LBB0_412:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.550:
+# %bb.413:
 	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_552
-# %bb.551:
+	cmp	r9d, 16
+	jae	.LBB0_415
+# %bb.414:
 	xor	esi, esi
-.LBB0_561:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_563
-	.p2align	4, 0x90
-.LBB0_562:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, byte ptr [rdx + rsi]
-	sub	bl, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], bl
+.LBB0_424:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_426
+.LBB0_425:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
 	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_562
-.LBB0_563:
-	cmp	rdi, 3
+	add	rdi, -1
+	jne	.LBB0_425
+.LBB0_426:
+	cmp	r9, 3
 	jb	.LBB0_697
-	.p2align	4, 0x90
-.LBB0_564:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
+.LBB0_427:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_564
+	jne	.LBB0_427
 	jmp	.LBB0_697
-.LBB0_623:
+.LBB0_428:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.624:
+# %bb.429:
 	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_626
-# %bb.625:
+	cmp	r9d, 16
+	jae	.LBB0_431
+# %bb.430:
 	xor	esi, esi
-.LBB0_635:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rax, r10
-	and	rax, 3
-	je	.LBB0_637
-	.p2align	4, 0x90
-.LBB0_636:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, dword ptr [rdx + 4*rsi]
-	sub	ebx, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], ebx
+.LBB0_440:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_442
+.LBB0_441:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
 	add	rsi, 1
-	add	rax, -1
-	jne	.LBB0_636
-.LBB0_637:
-	cmp	rdi, 3
+	add	rdi, -1
+	jne	.LBB0_441
+.LBB0_442:
+	cmp	r9, 3
 	jb	.LBB0_697
-	.p2align	4, 0x90
-.LBB0_638:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+.LBB0_443:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], ax
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], ax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_638
+	jne	.LBB0_443
 	jmp	.LBB0_697
-.LBB0_7:
-	cmp	edi, 2
-	je	.LBB0_30
-# %bb.8:
-	cmp	edi, 3
-	jne	.LBB0_178
-# %bb.9:
-	test	r9d, r9d
-	jle	.LBB0_697
-# %bb.10:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_46
-# %bb.11:
-	xor	esi, esi
-.LBB0_55:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_57
-.LBB0_56:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_56
-.LBB0_57:
-	cmp	r11, 3
-	jb	.LBB0_178
-.LBB0_58:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_58
-	jmp	.LBB0_178
-.LBB0_19:
-	cmp	edi, 7
-	je	.LBB0_104
-# %bb.20:
-	cmp	edi, 8
-	jne	.LBB0_178
-# %bb.21:
+.LBB0_313:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.22:
+# %bb.314:
 	mov	r10d, r9d
 	cmp	r9d, 4
-	jae	.LBB0_120
-# %bb.23:
+	jae	.LBB0_316
+# %bb.315:
 	xor	esi, esi
-.LBB0_129:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_131
-.LBB0_130:                              # =>This Inner Loop Header: Depth=1
+.LBB0_325:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_327
+.LBB0_326:                              # =>This Inner Loop Header: Depth=1
 	mov	rax, qword ptr [rcx + 8*rsi]
 	add	rax, qword ptr [rdx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_130
-.LBB0_131:
-	cmp	r11, 3
-	jb	.LBB0_178
-.LBB0_132:                              # =>This Inner Loop Header: Depth=1
+	add	rdi, -1
+	jne	.LBB0_326
+.LBB0_327:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_328:                              # =>This Inner Loop Header: Depth=1
 	mov	rax, qword ptr [rcx + 8*rsi]
 	add	rax, qword ptr [rdx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
@@ -942,127 +1252,164 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_132
-	jmp	.LBB0_178
-.LBB0_232:
+	jne	.LBB0_328
+	jmp	.LBB0_697
+.LBB0_329:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.233:
+# %bb.330:
 	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_235
-# %bb.234:
+	cmp	r9d, 8
+	jae	.LBB0_332
+# %bb.331:
 	xor	esi, esi
-.LBB0_244:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_246
-	.p2align	4, 0x90
-.LBB0_245:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
+.LBB0_341:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_343
+.LBB0_342:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_245
-.LBB0_246:
-	cmp	r11, 3
-	jb	.LBB0_351
-	.p2align	4, 0x90
-.LBB0_247:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rdi, -1
+	jne	.LBB0_342
+.LBB0_343:
+	cmp	rax, 3
+	jb	.LBB0_697
+.LBB0_344:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 4]
+	movss	dword ptr [r8 + 4*rsi + 4], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 8]
+	movss	dword ptr [r8 + 4*rsi + 8], xmm0
+	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 12]
+	movss	dword ptr [r8 + 4*rsi + 12], xmm0
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_247
-	jmp	.LBB0_351
-.LBB0_248:
+	jne	.LBB0_344
+	jmp	.LBB0_697
+.LBB0_652:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.249:
+# %bb.653:
 	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_251
-# %bb.250:
+	cmp	r9d, 4
+	jae	.LBB0_655
+# %bb.654:
 	xor	esi, esi
-.LBB0_260:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_262
-	.p2align	4, 0x90
-.LBB0_261:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
+.LBB0_664:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_666
+.LBB0_665:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_261
-.LBB0_262:
-	cmp	r11, 3
-	jb	.LBB0_351
-	.p2align	4, 0x90
-.LBB0_263:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rdi, -1
+	jne	.LBB0_665
+.LBB0_666:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_667:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_263
-	jmp	.LBB0_351
-.LBB0_306:
+	jne	.LBB0_667
+	jmp	.LBB0_697
+.LBB0_668:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.307:
+# %bb.669:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_671
+# %bb.670:
+	xor	esi, esi
+.LBB0_680:
+	mov	rax, rsi
+	not	rax
+	add	rax, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_682
+.LBB0_681:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_681
+.LBB0_682:
+	cmp	rax, 3
+	jb	.LBB0_697
+.LBB0_683:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	movss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 4]
+	movss	dword ptr [r8 + 4*rsi + 4], xmm0
+	movss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 8]
+	movss	dword ptr [r8 + 4*rsi + 8], xmm0
+	movss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 12]
+	movss	dword ptr [r8 + 4*rsi + 12], xmm0
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_683
+	jmp	.LBB0_697
+.LBB0_147:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.148:
 	mov	r10d, r9d
 	cmp	r9d, 4
-	jae	.LBB0_309
-# %bb.308:
-	xor	esi, esi
-.LBB0_318:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_320
-	.p2align	4, 0x90
-.LBB0_319:                              # =>This Inner Loop Header: Depth=1
+	jae	.LBB0_150
+# %bb.149:
+	xor	esi, esi
+.LBB0_159:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_161
+.LBB0_160:                              # =>This Inner Loop Header: Depth=1
 	mov	rax, qword ptr [rcx + 8*rsi]
 	add	rax, qword ptr [rdx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_319
-.LBB0_320:
-	cmp	r11, 3
-	jb	.LBB0_351
-	.p2align	4, 0x90
-.LBB0_321:                              # =>This Inner Loop Header: Depth=1
+	add	rdi, -1
+	jne	.LBB0_160
+.LBB0_161:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_162:                              # =>This Inner Loop Header: Depth=1
 	mov	rax, qword ptr [rcx + 8*rsi]
 	add	rax, qword ptr [rdx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
@@ -1077,37 +1424,35 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_321
-	jmp	.LBB0_351
-.LBB0_322:
+	jne	.LBB0_162
+	jmp	.LBB0_697
+.LBB0_163:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.323:
+# %bb.164:
 	mov	r10d, r9d
 	cmp	r9d, 8
-	jae	.LBB0_325
-# %bb.324:
+	jae	.LBB0_166
+# %bb.165:
 	xor	esi, esi
-.LBB0_334:
+.LBB0_175:
 	mov	rax, rsi
 	not	rax
 	add	rax, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_336
-	.p2align	4, 0x90
-.LBB0_335:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_177
+.LBB0_176:                              # =>This Inner Loop Header: Depth=1
 	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
 	addss	xmm0, dword ptr [rdx + 4*rsi]
 	movss	dword ptr [r8 + 4*rsi], xmm0
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_335
-.LBB0_336:
+	add	rdi, -1
+	jne	.LBB0_176
+.LBB0_177:
 	cmp	rax, 3
-	jb	.LBB0_351
-	.p2align	4, 0x90
-.LBB0_337:                              # =>This Inner Loop Header: Depth=1
+	jb	.LBB0_697
+.LBB0_178:                              # =>This Inner Loop Header: Depth=1
 	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
 	addss	xmm0, dword ptr [rdx + 4*rsi]
 	movss	dword ptr [r8 + 4*rsi], xmm0
@@ -1122,297 +1467,121 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	movss	dword ptr [r8 + 4*rsi + 12], xmm0
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_337
-	jmp	.LBB0_351
-.LBB0_203:
-	test	r9d, r9d
-	jle	.LBB0_697
-# %bb.204:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_206
-# %bb.205:
-	xor	esi, esi
-.LBB0_215:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_217
-	.p2align	4, 0x90
-.LBB0_216:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_216
-.LBB0_217:
-	cmp	r11, 3
-	jb	.LBB0_351
-	.p2align	4, 0x90
-.LBB0_218:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_218
-	jmp	.LBB0_351
-.LBB0_277:
-	test	r9d, r9d
-	jle	.LBB0_697
-# %bb.278:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_280
-# %bb.279:
-	xor	esi, esi
-.LBB0_289:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_291
-	.p2align	4, 0x90
-.LBB0_290:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_290
-.LBB0_291:
-	cmp	r11, 3
-	jb	.LBB0_351
-	.p2align	4, 0x90
-.LBB0_292:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_292
-	jmp	.LBB0_351
-.LBB0_59:
-	test	r9d, r9d
-	jle	.LBB0_697
-# %bb.60:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_62
-# %bb.61:
-	xor	esi, esi
-.LBB0_71:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_73
-.LBB0_72:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_72
-.LBB0_73:
-	cmp	r11, 3
-	jb	.LBB0_178
-.LBB0_74:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_74
-	jmp	.LBB0_178
-.LBB0_75:
-	test	r9d, r9d
-	jle	.LBB0_697
-# %bb.76:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_78
-# %bb.77:
-	xor	esi, esi
-.LBB0_87:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_89
-.LBB0_88:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_88
-.LBB0_89:
-	cmp	r11, 3
-	jb	.LBB0_178
-.LBB0_90:                               # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_90
-	jmp	.LBB0_178
-.LBB0_133:
+	jne	.LBB0_178
+	jmp	.LBB0_697
+.LBB0_486:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.134:
+# %bb.487:
 	mov	r10d, r9d
 	cmp	r9d, 4
-	jae	.LBB0_136
-# %bb.135:
+	jae	.LBB0_489
+# %bb.488:
 	xor	esi, esi
-.LBB0_145:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_147
-.LBB0_146:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
+.LBB0_498:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_500
+.LBB0_499:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_146
-.LBB0_147:
-	cmp	r11, 3
-	jb	.LBB0_178
-.LBB0_148:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
+	add	rdi, -1
+	jne	.LBB0_499
+.LBB0_500:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_501:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
 	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
 	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
 	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_148
-	jmp	.LBB0_178
-.LBB0_149:
+	jne	.LBB0_501
+	jmp	.LBB0_697
+.LBB0_502:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.150:
+# %bb.503:
 	mov	r10d, r9d
 	cmp	r9d, 8
-	jae	.LBB0_152
-# %bb.151:
+	jae	.LBB0_505
+# %bb.504:
 	xor	esi, esi
-.LBB0_161:
+.LBB0_514:
 	mov	rax, rsi
 	not	rax
 	add	rax, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_163
-.LBB0_162:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi]
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_516
+.LBB0_515:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi]
 	movss	dword ptr [r8 + 4*rsi], xmm0
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_162
-.LBB0_163:
+	add	rdi, -1
+	jne	.LBB0_515
+.LBB0_516:
 	cmp	rax, 3
-	jb	.LBB0_178
-.LBB0_164:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi]
+	jb	.LBB0_697
+.LBB0_517:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi]
 	movss	dword ptr [r8 + 4*rsi], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 4]
+	movss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 4]
 	movss	dword ptr [r8 + 4*rsi + 4], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 8]
+	movss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 8]
 	movss	dword ptr [r8 + 4*rsi + 8], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 12]
+	movss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 12]
 	movss	dword ptr [r8 + 4*rsi + 12], xmm0
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_164
-	jmp	.LBB0_178
-.LBB0_30:
+	jne	.LBB0_517
+	jmp	.LBB0_697
+.LBB0_210:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.31:
+# %bb.211:
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jae	.LBB0_33
-# %bb.32:
+	jae	.LBB0_213
+# %bb.212:
 	xor	esi, esi
-.LBB0_42:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_44
-.LBB0_43:                               # =>This Inner Loop Header: Depth=1
+.LBB0_222:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_224
+.LBB0_223:                              # =>This Inner Loop Header: Depth=1
 	movzx	eax, byte ptr [rcx + rsi]
 	add	al, byte ptr [rdx + rsi]
 	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_43
-.LBB0_44:
-	cmp	r11, 3
-	jb	.LBB0_178
-.LBB0_45:                               # =>This Inner Loop Header: Depth=1
+	add	rdi, -1
+	jne	.LBB0_223
+.LBB0_224:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_225:                              # =>This Inner Loop Header: Depth=1
 	movzx	eax, byte ptr [rcx + rsi]
 	add	al, byte ptr [rdx + rsi]
 	mov	byte ptr [r8 + rsi], al
@@ -1427,65 +1596,376 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_45
-	jmp	.LBB0_178
-.LBB0_104:
+	jne	.LBB0_225
+	jmp	.LBB0_697
+.LBB0_549:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.105:
+# %bb.550:
 	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_107
-# %bb.106:
+	cmp	r9d, 32
+	jae	.LBB0_552
+# %bb.551:
 	xor	esi, esi
-.LBB0_116:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_118
-.LBB0_117:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
+.LBB0_561:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_563
+.LBB0_562:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_117
-.LBB0_118:
-	cmp	r11, 3
-	jb	.LBB0_178
-.LBB0_119:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rdi, -1
+	jne	.LBB0_562
+.LBB0_563:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_564:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_119
-	jmp	.LBB0_178
-.LBB0_610:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
+	jne	.LBB0_564
+	jmp	.LBB0_697
+.LBB0_44:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.45:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_47
+# %bb.46:
+	xor	esi, esi
+.LBB0_56:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_58
+.LBB0_57:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_57
+.LBB0_58:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_59:                               # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_59
+	jmp	.LBB0_697
+.LBB0_383:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.384:
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jae	.LBB0_386
+# %bb.385:
+	xor	esi, esi
+.LBB0_395:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_397
+.LBB0_396:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_396
+.LBB0_397:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_398:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_398
+	jmp	.LBB0_697
+.LBB0_284:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.285:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_287
+# %bb.286:
+	xor	esi, esi
+.LBB0_296:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_298
+.LBB0_297:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_297
+.LBB0_298:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_299:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_299
+	jmp	.LBB0_697
+.LBB0_623:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.624:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_626
+# %bb.625:
+	xor	esi, esi
+.LBB0_635:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_637
+.LBB0_636:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_636
+.LBB0_637:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_638:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_638
+	jmp	.LBB0_697
+.LBB0_118:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.119:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_121
+# %bb.120:
+	xor	esi, esi
+.LBB0_130:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_132
+.LBB0_131:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_131
+.LBB0_132:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_133:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_133
+	jmp	.LBB0_697
+.LBB0_457:
+	test	r9d, r9d
+	jle	.LBB0_697
+# %bb.458:
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jae	.LBB0_460
+# %bb.459:
+	xor	esi, esi
+.LBB0_469:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB0_471
+.LBB0_470:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_470
+.LBB0_471:
+	cmp	r9, 3
+	jb	.LBB0_697
+.LBB0_472:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB0_472
+	jmp	.LBB0_697
+.LBB0_271:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
+	test	r9b, r11b
+	jne	.LBB0_280
+# %bb.272:
+	and	al, dil
+	jne	.LBB0_280
+# %bb.273:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_274
+# %bb.275:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_276:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_276
+	jmp	.LBB0_277
+.LBB0_610:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
 	jne	.LBB0_619
 # %bb.611:
 	and	al, dil
@@ -1500,9 +1980,9 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	test	rax, rax
 	je	.LBB0_613
 # %bb.614:
-	mov	rbx, r9
-	and	rbx, -2
-	neg	rbx
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
 	xor	edi, edi
 .LBB0_615:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
@@ -1522,41 +2002,200 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
 	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
 	add	rdi, 16
-	add	rbx, 2
+	add	rax, 2
 	jne	.LBB0_615
 	jmp	.LBB0_616
-.LBB0_684:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
+.LBB0_105:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
 	seta	r9b
-	lea	rax, [rcx + 8*r10]
+	lea	rax, [rcx + 4*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
-	jne	.LBB0_693
-# %bb.685:
+	test	r9b, r11b
+	jne	.LBB0_114
+# %bb.106:
 	and	al, dil
-	jne	.LBB0_693
-# %bb.686:
+	jne	.LBB0_114
+# %bb.107:
 	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
+	and	esi, -8
+	lea	rax, [rsi - 8]
 	mov	r9, rax
-	shr	r9, 2
+	shr	r9, 3
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_687
-# %bb.688:
-	mov	rbx, r9
-	and	rbx, -2
-	neg	rbx
-	xor	edi, edi
+	je	.LBB0_108
+# %bb.109:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_110:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_110
+	jmp	.LBB0_111
+.LBB0_444:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_453
+# %bb.445:
+	and	al, dil
+	jne	.LBB0_453
+# %bb.446:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_447
+# %bb.448:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_449:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_449
+	jmp	.LBB0_450
+.LBB0_345:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_354
+# %bb.346:
+	and	al, dil
+	jne	.LBB0_354
+# %bb.347:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_348
+# %bb.349:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_350:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 48]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_350
+	jmp	.LBB0_351
+.LBB0_684:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_693
+# %bb.685:
+	and	al, dil
+	jne	.LBB0_693
+# %bb.686:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_687
+# %bb.688:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
 .LBB0_689:                              # =>This Inner Loop Header: Depth=1
 	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
 	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
@@ -1575,81 +2214,81 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm0
 	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm1
 	add	rdi, 8
-	add	rbx, 2
+	add	rax, 2
 	jne	.LBB0_689
 	jmp	.LBB0_690
-.LBB0_565:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
+.LBB0_179:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
 	seta	r9b
-	lea	rax, [rcx + r10]
+	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
-	jne	.LBB0_574
-# %bb.566:
+	test	r9b, r11b
+	jne	.LBB0_188
+# %bb.180:
 	and	al, dil
-	jne	.LBB0_574
-# %bb.567:
+	jne	.LBB0_188
+# %bb.181:
 	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
+	and	esi, -4
+	lea	rax, [rsi - 4]
 	mov	r9, rax
-	shr	r9, 5
+	shr	r9, 2
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_568
-# %bb.569:
-	mov	rbx, r9
-	and	rbx, -2
-	neg	rbx
+	je	.LBB0_182
+# %bb.183:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
 	xor	edi, edi
-.LBB0_570:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
-	add	rdi, 64
-	add	rbx, 2
-	jne	.LBB0_570
-	jmp	.LBB0_571
-.LBB0_639:
+.LBB0_184:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 48]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_184
+	jmp	.LBB0_185
+.LBB0_518:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
 	seta	r9b
 	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
-	jne	.LBB0_648
-# %bb.640:
+	test	r9b, r11b
+	jne	.LBB0_527
+# %bb.519:
 	and	al, dil
-	jne	.LBB0_648
-# %bb.641:
+	jne	.LBB0_527
+# %bb.520:
 	mov	esi, r10d
 	and	esi, -4
 	lea	rax, [rsi - 4]
@@ -1657,264 +2296,211 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 2
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_642
-# %bb.643:
-	mov	rbx, r9
-	and	rbx, -2
-	neg	rbx
+	je	.LBB0_521
+# %bb.522:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
 	xor	edi, edi
-.LBB0_644:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+.LBB0_523:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rdi], xmm0
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm0
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm1
 	add	rdi, 8
-	add	rbx, 2
-	jne	.LBB0_644
-	jmp	.LBB0_645
-.LBB0_581:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
+	add	rax, 2
+	jne	.LBB0_523
+	jmp	.LBB0_524
+.LBB0_226:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
 	cmp	rax, r8
 	seta	r9b
-	lea	rax, [rcx + 2*r10]
+	lea	rax, [rcx + r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
-	jne	.LBB0_590
-# %bb.582:
+	test	r9b, r11b
+	jne	.LBB0_235
+# %bb.227:
 	and	al, dil
-	jne	.LBB0_590
-# %bb.583:
+	jne	.LBB0_235
+# %bb.228:
 	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r9, rax
-	shr	r9, 4
-	add	r9, 1
-	test	rax, rax
-	je	.LBB0_584
-# %bb.585:
-	mov	rbx, r9
-	and	rbx, -2
-	neg	rbx
-	xor	edi, edi
-.LBB0_586:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rbx, 2
-	jne	.LBB0_586
-	jmp	.LBB0_587
-.LBB0_597:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r9b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	dil
-	xor	esi, esi
-	test	r9b, bl
-	jne	.LBB0_606
-# %bb.598:
-	and	al, dil
-	jne	.LBB0_606
-# %bb.599:
-	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
+	and	esi, -32
+	lea	rax, [rsi - 32]
 	mov	r9, rax
-	shr	r9, 4
+	shr	r9, 5
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_600
-# %bb.601:
-	mov	rbx, r9
-	and	rbx, -2
-	neg	rbx
+	je	.LBB0_229
+# %bb.230:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
 	xor	edi, edi
-.LBB0_602:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
-	add	rdi, 32
-	add	rbx, 2
-	jne	.LBB0_602
-	jmp	.LBB0_603
-.LBB0_655:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
+.LBB0_231:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_231
+	jmp	.LBB0_232
+.LBB0_565:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
 	cmp	rax, r8
 	seta	r9b
-	lea	rax, [rcx + 8*r10]
+	lea	rax, [rcx + r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
-	jne	.LBB0_664
-# %bb.656:
+	test	r9b, r11b
+	jne	.LBB0_574
+# %bb.566:
 	and	al, dil
-	jne	.LBB0_664
-# %bb.657:
+	jne	.LBB0_574
+# %bb.567:
 	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
+	and	esi, -32
+	lea	rax, [rsi - 32]
 	mov	r9, rax
-	shr	r9, 2
+	shr	r9, 5
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_658
-# %bb.659:
-	mov	rbx, r9
-	and	rbx, -2
-	neg	rbx
+	je	.LBB0_568
+# %bb.569:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
 	xor	edi, edi
-.LBB0_660:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
-	add	rdi, 8
-	add	rbx, 2
-	jne	.LBB0_660
-	jmp	.LBB0_661
-.LBB0_671:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
+.LBB0_570:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_570
+	jmp	.LBB0_571
+.LBB0_60:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
 	cmp	rax, r8
 	seta	r9b
-	lea	rax, [rcx + 4*r10]
+	lea	rax, [rcx + r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
-	jne	.LBB0_680
-# %bb.672:
+	test	r9b, r11b
+	jne	.LBB0_69
+# %bb.61:
 	and	al, dil
-	jne	.LBB0_680
-# %bb.673:
+	jne	.LBB0_69
+# %bb.62:
 	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
+	and	esi, -32
+	lea	rax, [rsi - 32]
 	mov	r9, rax
-	shr	r9, 3
+	shr	r9, 5
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_674
-# %bb.675:
-	mov	rbx, r9
-	and	rbx, -2
-	neg	rbx
+	je	.LBB0_63
+# %bb.64:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
 	xor	edi, edi
-.LBB0_676:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rdi], xmm0
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm0
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rbx, 2
-	jne	.LBB0_676
-	jmp	.LBB0_677
-.LBB0_552:
+.LBB0_65:                               # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_65
+	jmp	.LBB0_66
+.LBB0_399:
 	lea	rsi, [r8 + r10]
 	lea	rax, [rdx + r10]
 	cmp	rax, r8
 	seta	r9b
 	lea	rax, [rcx + r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
-	jne	.LBB0_561
-# %bb.553:
+	test	r9b, r11b
+	jne	.LBB0_408
+# %bb.400:
 	and	al, dil
-	jne	.LBB0_561
-# %bb.554:
+	jne	.LBB0_408
+# %bb.401:
 	mov	esi, r10d
 	and	esi, -32
 	lea	rax, [rsi - 32]
@@ -1922,13 +2508,13 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 5
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_555
-# %bb.556:
-	mov	rbx, r9
-	and	rbx, -2
-	neg	rbx
+	je	.LBB0_402
+# %bb.403:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
 	xor	edi, edi
-.LBB0_557:                              # =>This Inner Loop Header: Depth=1
+.LBB0_404:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + rdi]
 	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + rdi]
@@ -1946,1236 +2532,996 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
 	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
 	add	rdi, 64
-	add	rbx, 2
-	jne	.LBB0_557
-	jmp	.LBB0_558
-.LBB0_626:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
+	add	rax, 2
+	jne	.LBB0_404
+	jmp	.LBB0_405
+.LBB0_300:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
 	seta	r9b
-	lea	rax, [rcx + 4*r10]
+	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
 	seta	dil
 	xor	esi, esi
-	test	r9b, bl
-	jne	.LBB0_635
-# %bb.627:
+	test	r9b, r11b
+	jne	.LBB0_309
+# %bb.301:
 	and	al, dil
-	jne	.LBB0_635
-# %bb.628:
+	jne	.LBB0_309
+# %bb.302:
 	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
+	and	esi, -4
+	lea	rax, [rsi - 4]
 	mov	r9, rax
-	shr	r9, 3
+	shr	r9, 2
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_629
-# %bb.630:
-	mov	rbx, r9
-	and	rbx, -2
-	neg	rbx
+	je	.LBB0_303
+# %bb.304:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
 	xor	edi, edi
-.LBB0_631:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
-	add	rdi, 16
-	add	rbx, 2
-	jne	.LBB0_631
-	jmp	.LBB0_632
-.LBB0_264:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	r11b
-	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_273
-# %bb.265:
-	and	al, r11b
-	jne	.LBB0_273
-# %bb.266:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
-	test	rax, rax
-	je	.LBB0_267
-# %bb.268:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_269:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rax], xmm2
-	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 32]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 48]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rax + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rax + 48], xmm0
-	add	rax, 16
-	add	rbx, 2
-	jne	.LBB0_269
-	jmp	.LBB0_270
-.LBB0_338:
+.LBB0_305:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_305
+	jmp	.LBB0_306
+.LBB0_639:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
-	seta	r14b
+	seta	r9b
 	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_347
-# %bb.339:
-	and	al, r11b
-	jne	.LBB0_347
-# %bb.340:
+	test	r9b, r11b
+	jne	.LBB0_648
+# %bb.640:
+	and	al, dil
+	jne	.LBB0_648
+# %bb.641:
 	mov	esi, r10d
 	and	esi, -4
 	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_341
-# %bb.342:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_343:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rax]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rax + 16]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rax], xmm2
-	movupd	xmmword ptr [r8 + 8*rax + 16], xmm0
-	movupd	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movupd	xmm2, xmmword ptr [rcx + 8*rax + 32]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rax + 48]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rax + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rax + 48], xmm0
-	add	rax, 8
-	add	rbx, 2
-	jne	.LBB0_343
-	jmp	.LBB0_344
-.LBB0_219:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
+	je	.LBB0_642
+# %bb.643:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_644:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_644
+	jmp	.LBB0_645
+.LBB0_134:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + r10]
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_228
-# %bb.220:
-	and	al, r11b
-	jne	.LBB0_228
-# %bb.221:
+	test	r9b, r11b
+	jne	.LBB0_143
+# %bb.135:
+	and	al, dil
+	jne	.LBB0_143
+# %bb.136:
 	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_222
-# %bb.223:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_224:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rax]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rax]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rax], xmm2
-	movdqu	xmmword ptr [r8 + rax + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rax + 32]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rax + 48]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rax + 32], xmm2
-	movdqu	xmmword ptr [r8 + rax + 48], xmm0
-	add	rax, 64
-	add	rbx, 2
-	jne	.LBB0_224
-	jmp	.LBB0_225
-.LBB0_293:
+	je	.LBB0_137
+# %bb.138:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_139:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_139
+	jmp	.LBB0_140
+.LBB0_473:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
-	seta	r14b
+	seta	r9b
 	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_302
-# %bb.294:
-	and	al, r11b
-	jne	.LBB0_302
-# %bb.295:
+	test	r9b, r11b
+	jne	.LBB0_482
+# %bb.474:
+	and	al, dil
+	jne	.LBB0_482
+# %bb.475:
 	mov	esi, r10d
 	and	esi, -4
 	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_296
-# %bb.297:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_298:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rax], xmm2
-	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 32]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 48]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rax + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rax + 48], xmm0
-	add	rax, 8
-	add	rbx, 2
-	jne	.LBB0_298
-	jmp	.LBB0_299
-.LBB0_235:
+	je	.LBB0_476
+# %bb.477:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_478:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_478
+	jmp	.LBB0_479
+.LBB0_242:
 	lea	rsi, [r8 + 2*r10]
 	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
-	seta	r14b
+	seta	r9b
 	lea	rax, [rcx + 2*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_244
-# %bb.236:
-	and	al, r11b
-	jne	.LBB0_244
-# %bb.237:
+	test	r9b, r11b
+	jne	.LBB0_251
+# %bb.243:
+	and	al, dil
+	jne	.LBB0_251
+# %bb.244:
 	mov	esi, r10d
 	and	esi, -16
 	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_238
-# %bb.239:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_240:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	je	.LBB0_245
+# %bb.246:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_247:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
 	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 16]
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
 	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rax], xmm2
-	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 32]
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
 	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 48]
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
 	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rax + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rax + 48], xmm0
-	add	rax, 32
-	add	rbx, 2
-	jne	.LBB0_240
-	jmp	.LBB0_241
-.LBB0_251:
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_247
+	jmp	.LBB0_248
+.LBB0_258:
 	lea	rsi, [r8 + 2*r10]
 	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
-	seta	r14b
+	seta	r9b
 	lea	rax, [rcx + 2*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_260
-# %bb.252:
-	and	al, r11b
-	jne	.LBB0_260
-# %bb.253:
+	test	r9b, r11b
+	jne	.LBB0_267
+# %bb.259:
+	and	al, dil
+	jne	.LBB0_267
+# %bb.260:
 	mov	esi, r10d
 	and	esi, -16
 	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_254
-# %bb.255:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_256:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	je	.LBB0_261
+# %bb.262:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_263:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
 	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 16]
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
 	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rax], xmm2
-	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 32]
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
 	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 48]
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
 	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rax + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rax + 48], xmm0
-	add	rax, 32
-	add	rbx, 2
-	jne	.LBB0_256
-	jmp	.LBB0_257
-.LBB0_309:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_263
+	jmp	.LBB0_264
+.LBB0_581:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 8*r10]
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_318
-# %bb.310:
-	and	al, r11b
-	jne	.LBB0_318
-# %bb.311:
+	test	r9b, r11b
+	jne	.LBB0_590
+# %bb.582:
+	and	al, dil
+	jne	.LBB0_590
+# %bb.583:
 	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
-	test	rax, rax
-	je	.LBB0_312
-# %bb.313:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_314:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rax], xmm2
-	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 32]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 48]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rax + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rax + 48], xmm0
-	add	rax, 8
-	add	rbx, 2
-	jne	.LBB0_314
-	jmp	.LBB0_315
-.LBB0_325:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	r11b
-	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_334
-# %bb.326:
-	and	al, r11b
-	jne	.LBB0_334
-# %bb.327:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
-	test	rax, rax
-	je	.LBB0_328
-# %bb.329:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_330:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rax]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rax + 16]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rax], xmm2
-	movups	xmmword ptr [r8 + 4*rax + 16], xmm0
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movups	xmm2, xmmword ptr [rcx + 4*rax + 32]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rax + 48]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rax + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rax + 48], xmm0
-	add	rax, 16
-	add	rbx, 2
-	jne	.LBB0_330
-	jmp	.LBB0_331
-.LBB0_206:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + r10]
-	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	r11b
-	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_215
-# %bb.207:
-	and	al, r11b
-	jne	.LBB0_215
-# %bb.208:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB0_209
-# %bb.210:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_211:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rax]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rax]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rax], xmm2
-	movdqu	xmmword ptr [r8 + rax + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rax + 32]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rax + 48]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rax + 32], xmm2
-	movdqu	xmmword ptr [r8 + rax + 48], xmm0
-	add	rax, 64
-	add	rbx, 2
-	jne	.LBB0_211
-	jmp	.LBB0_212
-.LBB0_280:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	r11b
-	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_289
-# %bb.281:
-	and	al, r11b
-	jne	.LBB0_289
-# %bb.282:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
-	test	rax, rax
-	je	.LBB0_283
-# %bb.284:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_285:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rax], xmm2
-	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 32]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 48]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rax + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rax + 48], xmm0
-	add	rax, 16
-	add	rbx, 2
-	jne	.LBB0_285
-	jmp	.LBB0_286
-.LBB0_91:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 4*r10]
-	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	r11b
-	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_100
-# %bb.92:
-	and	al, r11b
-	jne	.LBB0_100
-# %bb.93:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
-	test	rax, rax
-	je	.LBB0_94
-# %bb.95:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_96:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rax], xmm2
-	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 32]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 48]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rax + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rax + 48], xmm0
-	add	rax, 16
-	add	rbx, 2
-	jne	.LBB0_96
-	jmp	.LBB0_97
-.LBB0_165:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
-	seta	r11b
-	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_174
-# %bb.166:
-	and	al, r11b
-	jne	.LBB0_174
-# %bb.167:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_168
-# %bb.169:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_170:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rax]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rax + 16]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rax], xmm2
-	movupd	xmmword ptr [r8 + 8*rax + 16], xmm0
-	movupd	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movupd	xmm2, xmmword ptr [rcx + 8*rax + 32]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rax + 48]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rax + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rax + 48], xmm0
-	add	rax, 8
-	add	rbx, 2
-	jne	.LBB0_170
-	jmp	.LBB0_171
-.LBB0_46:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
+	je	.LBB0_584
+# %bb.585:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_586:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_586
+	jmp	.LBB0_587
+.LBB0_597:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + r10]
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
 	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
 	seta	r11b
-	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_55
-# %bb.47:
-	and	al, r11b
-	jne	.LBB0_55
-# %bb.48:
-	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB0_49
-# %bb.50:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_51:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rax]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rax]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rax], xmm2
-	movdqu	xmmword ptr [r8 + rax + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rax + 32]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rax + 48]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rax + 32], xmm2
-	movdqu	xmmword ptr [r8 + rax + 48], xmm0
-	add	rax, 64
-	add	rbx, 2
-	jne	.LBB0_51
-	jmp	.LBB0_52
-.LBB0_120:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	bl
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_129
-# %bb.121:
-	and	al, r11b
-	jne	.LBB0_129
-# %bb.122:
+	test	r9b, r11b
+	jne	.LBB0_606
+# %bb.598:
+	and	al, dil
+	jne	.LBB0_606
+# %bb.599:
 	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_123
-# %bb.124:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_125:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rax], xmm2
-	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 32]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 48]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rax + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rax + 48], xmm0
-	add	rax, 8
-	add	rbx, 2
-	jne	.LBB0_125
-	jmp	.LBB0_126
-.LBB0_62:
+	je	.LBB0_600
+# %bb.601:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_602:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_602
+	jmp	.LBB0_603
+.LBB0_76:
 	lea	rsi, [r8 + 2*r10]
 	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
-	seta	r14b
+	seta	r9b
 	lea	rax, [rcx + 2*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_71
-# %bb.63:
-	and	al, r11b
-	jne	.LBB0_71
-# %bb.64:
+	test	r9b, r11b
+	jne	.LBB0_85
+# %bb.77:
+	and	al, dil
+	jne	.LBB0_85
+# %bb.78:
 	mov	esi, r10d
 	and	esi, -16
 	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_65
-# %bb.66:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_67:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	je	.LBB0_79
+# %bb.80:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_81:                               # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
 	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 16]
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
 	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rax], xmm2
-	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 32]
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
 	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 48]
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
 	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rax + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rax + 48], xmm0
-	add	rax, 32
-	add	rbx, 2
-	jne	.LBB0_67
-	jmp	.LBB0_68
-.LBB0_78:
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_81
+	jmp	.LBB0_82
+.LBB0_92:
 	lea	rsi, [r8 + 2*r10]
 	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
-	seta	r14b
+	seta	r9b
 	lea	rax, [rcx + 2*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_87
-# %bb.79:
-	and	al, r11b
-	jne	.LBB0_87
-# %bb.80:
+	test	r9b, r11b
+	jne	.LBB0_101
+# %bb.93:
+	and	al, dil
+	jne	.LBB0_101
+# %bb.94:
 	mov	esi, r10d
 	and	esi, -16
 	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_81
-# %bb.82:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_83:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	je	.LBB0_95
+# %bb.96:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_97:                               # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
 	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 16]
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
 	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rax], xmm2
-	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 32]
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
 	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 48]
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
 	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rax + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rax + 48], xmm0
-	add	rax, 32
-	add	rbx, 2
-	jne	.LBB0_83
-	jmp	.LBB0_84
-.LBB0_136:
-	lea	rsi, [r8 + 8*r10]
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_97
+	jmp	.LBB0_98
+.LBB0_415:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_424
+# %bb.416:
+	and	al, dil
+	jne	.LBB0_424
+# %bb.417:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_418
+# %bb.419:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_420:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_420
+	jmp	.LBB0_421
+.LBB0_431:
+	lea	rsi, [r8 + 2*r10]
+	lea	rax, [rdx + 2*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 2*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_440
+# %bb.432:
+	and	al, dil
+	jne	.LBB0_440
+# %bb.433:
+	mov	esi, r10d
+	and	esi, -16
+	lea	rax, [rsi - 16]
+	mov	r9, rax
+	shr	r9, 4
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_434
+# %bb.435:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_436:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rax, 2
+	jne	.LBB0_436
+	jmp	.LBB0_437
+.LBB0_316:
+	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
-	seta	r14b
+	seta	r9b
 	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_145
-# %bb.137:
-	and	al, r11b
-	jne	.LBB0_145
-# %bb.138:
+	test	r9b, r11b
+	jne	.LBB0_325
+# %bb.317:
+	and	al, dil
+	jne	.LBB0_325
+# %bb.318:
 	mov	esi, r10d
 	and	esi, -4
 	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_139
-# %bb.140:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_141:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
+	je	.LBB0_319
+# %bb.320:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_321:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
 	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 16]
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
 	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rax], xmm2
-	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 32]
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
 	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 48]
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
 	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rax + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rax + 48], xmm0
-	add	rax, 8
-	add	rbx, 2
-	jne	.LBB0_141
-	jmp	.LBB0_142
-.LBB0_152:
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_321
+	jmp	.LBB0_322
+.LBB0_332:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
-	seta	r14b
+	seta	r9b
 	lea	rax, [rcx + 4*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_161
-# %bb.153:
-	and	al, r11b
-	jne	.LBB0_161
-# %bb.154:
+	test	r9b, r11b
+	jne	.LBB0_341
+# %bb.333:
+	and	al, dil
+	jne	.LBB0_341
+# %bb.334:
 	mov	esi, r10d
 	and	esi, -8
 	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_155
-# %bb.156:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_157:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rax]
+	je	.LBB0_335
+# %bb.336:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_337:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
 	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rax + 16]
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
 	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rax], xmm2
-	movups	xmmword ptr [r8 + 4*rax + 16], xmm0
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movups	xmm2, xmmword ptr [rcx + 4*rax + 32]
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
 	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rax + 48]
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 48]
 	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rax + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rax + 48], xmm0
-	add	rax, 16
-	add	rbx, 2
-	jne	.LBB0_157
-	jmp	.LBB0_158
-.LBB0_33:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_337
+	jmp	.LBB0_338
+.LBB0_655:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + r10]
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_42
-# %bb.34:
-	and	al, r11b
-	jne	.LBB0_42
-# %bb.35:
+	test	r9b, r11b
+	jne	.LBB0_664
+# %bb.656:
+	and	al, dil
+	jne	.LBB0_664
+# %bb.657:
 	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_36
-# %bb.37:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_38:                               # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rax]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rax]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rax], xmm2
-	movdqu	xmmword ptr [r8 + rax + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rax + 32]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rax + 48]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rax + 32], xmm2
-	movdqu	xmmword ptr [r8 + rax + 48], xmm0
-	add	rax, 64
-	add	rbx, 2
-	jne	.LBB0_38
-	jmp	.LBB0_39
-.LBB0_107:
+	je	.LBB0_658
+# %bb.659:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_660:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_660
+	jmp	.LBB0_661
+.LBB0_671:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
-	seta	r14b
+	seta	r9b
 	lea	rax, [rcx + 4*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_116
-# %bb.108:
-	and	al, r11b
-	jne	.LBB0_116
-# %bb.109:
+	test	r9b, r11b
+	jne	.LBB0_680
+# %bb.672:
+	and	al, dil
+	jne	.LBB0_680
+# %bb.673:
 	mov	esi, r10d
 	and	esi, -8
 	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_110
-# %bb.111:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_112:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rax], xmm2
-	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm0
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 32]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 48]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rax + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rax + 48], xmm0
-	add	rax, 16
-	add	rbx, 2
-	jne	.LBB0_112
-	jmp	.LBB0_113
-.LBB0_613:
-	xor	edi, edi
-.LBB0_616:
-	test	r9b, 1
-	je	.LBB0_618
-# %bb.617:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_618:
-	cmp	rsi, r10
-	jne	.LBB0_619
-	jmp	.LBB0_697
-.LBB0_687:
-	xor	edi, edi
-.LBB0_690:
-	test	r9b, 1
-	je	.LBB0_692
-# %bb.691:
-	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rdi], xmm0
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_692:
-	cmp	rsi, r10
-	jne	.LBB0_693
-	jmp	.LBB0_697
-.LBB0_568:
+	je	.LBB0_674
+# %bb.675:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
 	xor	edi, edi
-.LBB0_571:
-	test	r9b, 1
-	je	.LBB0_573
-# %bb.572:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-.LBB0_573:
-	cmp	rsi, r10
-	jne	.LBB0_574
-	jmp	.LBB0_697
-.LBB0_642:
+.LBB0_676:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rdi], xmm0
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm0
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_676
+	jmp	.LBB0_677
+.LBB0_150:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_159
+# %bb.151:
+	and	al, dil
+	jne	.LBB0_159
+# %bb.152:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_153
+# %bb.154:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
 	xor	edi, edi
-.LBB0_645:
-	test	r9b, 1
-	je	.LBB0_647
-# %bb.646:
+.LBB0_155:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_647:
-	cmp	rsi, r10
-	jne	.LBB0_648
-	jmp	.LBB0_697
-.LBB0_584:
-	xor	edi, edi
-.LBB0_587:
-	test	r9b, 1
-	je	.LBB0_589
-# %bb.588:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-.LBB0_589:
-	cmp	rsi, r10
-	jne	.LBB0_590
-	jmp	.LBB0_697
-.LBB0_600:
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_155
+	jmp	.LBB0_156
+.LBB0_166:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_175
+# %bb.167:
+	and	al, dil
+	jne	.LBB0_175
+# %bb.168:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_169
+# %bb.170:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
 	xor	edi, edi
-.LBB0_603:
-	test	r9b, 1
-	je	.LBB0_605
-# %bb.604:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-.LBB0_605:
-	cmp	rsi, r10
-	jne	.LBB0_606
-	jmp	.LBB0_697
-.LBB0_658:
+.LBB0_171:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_171
+	jmp	.LBB0_172
+.LBB0_489:
+	lea	rsi, [r8 + 8*r10]
+	lea	rax, [rdx + 8*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 8*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_498
+# %bb.490:
+	and	al, dil
+	jne	.LBB0_498
+# %bb.491:
+	mov	esi, r10d
+	and	esi, -4
+	lea	rax, [rsi - 4]
+	mov	r9, rax
+	shr	r9, 2
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_492
+# %bb.493:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
 	xor	edi, edi
-.LBB0_661:
-	test	r9b, 1
-	je	.LBB0_663
-# %bb.662:
+.LBB0_494:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
@@ -3184,16 +3530,51 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	psubq	xmm1, xmm2
 	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
 	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_663:
-	cmp	rsi, r10
-	jne	.LBB0_664
-	jmp	.LBB0_697
-.LBB0_674:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rax, 2
+	jne	.LBB0_494
+	jmp	.LBB0_495
+.LBB0_505:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
+	cmp	rax, r8
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
+	cmp	rsi, rdx
+	seta	r11b
+	cmp	rax, r8
+	seta	al
+	cmp	rsi, rcx
+	seta	dil
+	xor	esi, esi
+	test	r9b, r11b
+	jne	.LBB0_514
+# %bb.506:
+	and	al, dil
+	jne	.LBB0_514
+# %bb.507:
+	mov	esi, r10d
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
+	test	rax, rax
+	je	.LBB0_508
+# %bb.509:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
 	xor	edi, edi
-.LBB0_677:
-	test	r9b, 1
-	je	.LBB0_679
-# %bb.678:
+.LBB0_510:                              # =>This Inner Loop Header: Depth=1
 	movups	xmm0, xmmword ptr [rdx + 4*rdi]
 	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
 	movups	xmm2, xmmword ptr [rcx + 4*rdi]
@@ -3202,1759 +3583,1308 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	subps	xmm1, xmm2
 	movups	xmmword ptr [r8 + 4*rdi], xmm0
 	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_679:
-	cmp	rsi, r10
-	jne	.LBB0_680
-	jmp	.LBB0_697
-.LBB0_555:
-	xor	edi, edi
-.LBB0_558:
-	test	r9b, 1
-	je	.LBB0_560
-# %bb.559:
-	movdqu	xmm0, xmmword ptr [rdx + rdi]
-	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-.LBB0_560:
-	cmp	rsi, r10
-	jne	.LBB0_561
-	jmp	.LBB0_697
-.LBB0_629:
-	xor	edi, edi
-.LBB0_632:
-	test	r9b, 1
-	je	.LBB0_634
-# %bb.633:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_634:
-	cmp	rsi, r10
-	jne	.LBB0_635
-	jmp	.LBB0_697
-.LBB0_267:
-	xor	eax, eax
-.LBB0_270:
-	test	r11b, 1
-	je	.LBB0_272
-# %bb.271:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rax], xmm2
-	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm0
-.LBB0_272:
-	cmp	rsi, r10
-	jne	.LBB0_273
-	jmp	.LBB0_351
-.LBB0_341:
-	xor	eax, eax
-.LBB0_344:
-	test	r11b, 1
-	je	.LBB0_346
-# %bb.345:
-	movupd	xmm0, xmmword ptr [rdx + 8*rax]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rax]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rax + 16]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rax], xmm2
-	movupd	xmmword ptr [r8 + 8*rax + 16], xmm0
-.LBB0_346:
-	cmp	rsi, r10
-	jne	.LBB0_347
-	jmp	.LBB0_351
-.LBB0_222:
-	xor	eax, eax
-.LBB0_225:
-	test	r11b, 1
-	je	.LBB0_227
-# %bb.226:
-	movdqu	xmm0, xmmword ptr [rdx + rax]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rax]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rax], xmm2
-	movdqu	xmmword ptr [r8 + rax + 16], xmm0
-.LBB0_227:
-	cmp	rsi, r10
-	jne	.LBB0_228
-	jmp	.LBB0_351
-.LBB0_296:
-	xor	eax, eax
-.LBB0_299:
-	test	r11b, 1
-	je	.LBB0_301
-# %bb.300:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rax], xmm2
-	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm0
-.LBB0_301:
-	cmp	rsi, r10
-	jne	.LBB0_302
-	jmp	.LBB0_351
-.LBB0_238:
-	xor	eax, eax
-.LBB0_241:
-	test	r11b, 1
-	je	.LBB0_243
-# %bb.242:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rax], xmm2
-	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm0
-.LBB0_243:
-	cmp	rsi, r10
-	jne	.LBB0_244
-	jmp	.LBB0_351
-.LBB0_254:
-	xor	eax, eax
-.LBB0_257:
-	test	r11b, 1
-	je	.LBB0_259
-# %bb.258:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rax], xmm2
-	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm0
-.LBB0_259:
-	cmp	rsi, r10
-	jne	.LBB0_260
-	jmp	.LBB0_351
-.LBB0_312:
-	xor	eax, eax
-.LBB0_315:
-	test	r11b, 1
-	je	.LBB0_317
-# %bb.316:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rax], xmm2
-	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm0
-.LBB0_317:
-	cmp	rsi, r10
-	jne	.LBB0_318
-	jmp	.LBB0_351
-.LBB0_328:
-	xor	eax, eax
-.LBB0_331:
-	test	r11b, 1
-	je	.LBB0_333
-# %bb.332:
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rax]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rax + 16]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rax], xmm2
-	movups	xmmword ptr [r8 + 4*rax + 16], xmm0
-.LBB0_333:
-	cmp	rsi, r10
-	jne	.LBB0_334
-	jmp	.LBB0_351
-.LBB0_209:
-	xor	eax, eax
-.LBB0_212:
-	test	r11b, 1
-	je	.LBB0_214
-# %bb.213:
-	movdqu	xmm0, xmmword ptr [rdx + rax]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rax]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rax], xmm2
-	movdqu	xmmword ptr [r8 + rax + 16], xmm0
-.LBB0_214:
-	cmp	rsi, r10
-	jne	.LBB0_215
-	jmp	.LBB0_351
-.LBB0_283:
-	xor	eax, eax
-.LBB0_286:
-	test	r11b, 1
-	je	.LBB0_288
-# %bb.287:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rax], xmm2
-	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm0
-.LBB0_288:
-	cmp	rsi, r10
-	jne	.LBB0_289
-.LBB0_351:
-	cmp	edi, 6
-	jg	.LBB0_364
-# %bb.352:
-	cmp	edi, 3
-	jle	.LBB0_353
-# %bb.358:
-	cmp	edi, 4
-	je	.LBB0_405
-# %bb.359:
-	cmp	edi, 5
-	je	.LBB0_421
-# %bb.360:
-	cmp	edi, 6
-	jne	.LBB0_524
-# %bb.361:
-	test	r9d, r9d
-	jle	.LBB0_697
-# %bb.362:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_437
-# %bb.363:
-	xor	esi, esi
-	jmp	.LBB0_446
-.LBB0_364:
-	cmp	edi, 8
-	jle	.LBB0_365
-# %bb.370:
-	cmp	edi, 9
-	je	.LBB0_479
-# %bb.371:
-	cmp	edi, 11
-	je	.LBB0_495
-# %bb.372:
-	cmp	edi, 12
-	jne	.LBB0_524
-# %bb.373:
-	test	r9d, r9d
-	jle	.LBB0_697
-# %bb.374:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_511
-# %bb.375:
-	xor	esi, esi
-	jmp	.LBB0_520
-.LBB0_353:
-	cmp	edi, 2
-	je	.LBB0_376
-# %bb.354:
-	cmp	edi, 3
-	jne	.LBB0_524
-# %bb.355:
-	test	r9d, r9d
-	jle	.LBB0_697
-# %bb.356:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_392
-# %bb.357:
-	xor	esi, esi
-	jmp	.LBB0_401
-.LBB0_365:
-	cmp	edi, 7
-	je	.LBB0_450
-# %bb.366:
-	cmp	edi, 8
-	jne	.LBB0_524
-# %bb.367:
-	test	r9d, r9d
-	jle	.LBB0_697
-# %bb.368:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_466
-# %bb.369:
-	xor	esi, esi
-	jmp	.LBB0_475
-.LBB0_405:
-	test	r9d, r9d
-	jle	.LBB0_697
-# %bb.406:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_408
-# %bb.407:
-	xor	esi, esi
-	jmp	.LBB0_417
-.LBB0_421:
-	test	r9d, r9d
-	jle	.LBB0_697
-# %bb.422:
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jae	.LBB0_424
-# %bb.423:
-	xor	esi, esi
-	jmp	.LBB0_433
-.LBB0_479:
-	test	r9d, r9d
-	jle	.LBB0_697
-# %bb.480:
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jae	.LBB0_482
-# %bb.481:
-	xor	esi, esi
-	jmp	.LBB0_491
-.LBB0_495:
-	test	r9d, r9d
-	jle	.LBB0_697
-# %bb.496:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_498
-# %bb.497:
-	xor	esi, esi
-	jmp	.LBB0_507
-.LBB0_376:
-	test	r9d, r9d
-	jle	.LBB0_697
-# %bb.377:
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jae	.LBB0_379
-# %bb.378:
-	xor	esi, esi
-	jmp	.LBB0_388
-.LBB0_450:
-	test	r9d, r9d
-	jle	.LBB0_697
-# %bb.451:
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jae	.LBB0_453
-# %bb.452:
-	xor	esi, esi
-	jmp	.LBB0_462
-.LBB0_697:
-	lea	rsp, [rbp - 16]
-	pop	rbx
-	pop	r14
-	pop	rbp
-	ret
-.LBB0_437:
-	lea	rsi, [r8 + 4*r10]
-	lea	rax, [rdx + 4*r10]
+	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm0
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_510
+	jmp	.LBB0_511
+.LBB0_213:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 4*r10]
+	seta	r9b
+	lea	rax, [rcx + r10]
 	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
 	seta	r11b
-	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_446
-# %bb.438:
-	and	al, r11b
-	jne	.LBB0_446
-# %bb.439:
-	mov	esi, r10d
-	and	esi, -8
-	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
-	test	rax, rax
-	je	.LBB0_440
-# %bb.441:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_442:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rax], xmm0
-	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 32]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 48]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rax + 32], xmm0
-	movdqu	xmmword ptr [r8 + 4*rax + 48], xmm1
-	add	rax, 16
-	add	rbx, 2
-	jne	.LBB0_442
-	jmp	.LBB0_443
-.LBB0_511:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 8*r10]
-	cmp	rsi, rdx
-	seta	bl
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_520
-# %bb.512:
-	and	al, r11b
-	jne	.LBB0_520
-# %bb.513:
+	test	r9b, r11b
+	jne	.LBB0_222
+# %bb.214:
+	and	al, dil
+	jne	.LBB0_222
+# %bb.215:
 	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_514
-# %bb.515:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_516:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rax]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rax + 16]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rax], xmm0
-	movupd	xmmword ptr [r8 + 8*rax + 16], xmm1
-	movupd	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movupd	xmm2, xmmword ptr [rcx + 8*rax + 32]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rax + 48]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rax + 32], xmm0
-	movupd	xmmword ptr [r8 + 8*rax + 48], xmm1
-	add	rax, 8
-	add	rbx, 2
-	jne	.LBB0_516
-	jmp	.LBB0_517
-.LBB0_392:
+	je	.LBB0_216
+# %bb.217:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_218:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_218
+	jmp	.LBB0_219
+.LBB0_552:
 	lea	rsi, [r8 + r10]
 	lea	rax, [rdx + r10]
 	cmp	rax, r8
-	seta	r14b
+	seta	r9b
 	lea	rax, [rcx + r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_401
-# %bb.393:
-	and	al, r11b
-	jne	.LBB0_401
-# %bb.394:
+	test	r9b, r11b
+	jne	.LBB0_561
+# %bb.553:
+	and	al, dil
+	jne	.LBB0_561
+# %bb.554:
 	mov	esi, r10d
 	and	esi, -32
 	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_395
-# %bb.396:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_397:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rax]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rax]
+	je	.LBB0_555
+# %bb.556:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_557:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
 	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
 	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rax], xmm0
-	movdqu	xmmword ptr [r8 + rax + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rax + 32]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rax + 48]
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
 	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rax + 32], xmm0
-	movdqu	xmmword ptr [r8 + rax + 48], xmm1
-	add	rax, 64
-	add	rbx, 2
-	jne	.LBB0_397
-	jmp	.LBB0_398
-.LBB0_466:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_557
+	jmp	.LBB0_558
+.LBB0_47:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 8*r10]
+	seta	r9b
+	lea	rax, [rcx + r10]
 	cmp	rsi, rdx
-	seta	bl
-	cmp	rax, r8
-	seta	al
-	cmp	rsi, rcx
 	seta	r11b
-	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_475
-# %bb.467:
-	and	al, r11b
-	jne	.LBB0_475
-# %bb.468:
-	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
-	test	rax, rax
-	je	.LBB0_469
-# %bb.470:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_471:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rax], xmm0
-	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 32]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 48]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [r8 + 8*rax + 48], xmm1
-	add	rax, 8
-	add	rbx, 2
-	jne	.LBB0_471
-	jmp	.LBB0_472
-.LBB0_408:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 2*r10]
-	cmp	rsi, rdx
-	seta	bl
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_417
-# %bb.409:
-	and	al, r11b
-	jne	.LBB0_417
-# %bb.410:
+	test	r9b, r11b
+	jne	.LBB0_56
+# %bb.48:
+	and	al, dil
+	jne	.LBB0_56
+# %bb.49:
 	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_411
-# %bb.412:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_413:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rax], xmm0
-	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 32]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 48]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rax + 32], xmm0
-	movdqu	xmmword ptr [r8 + 2*rax + 48], xmm1
-	add	rax, 32
-	add	rbx, 2
-	jne	.LBB0_413
-	jmp	.LBB0_414
-.LBB0_424:
-	lea	rsi, [r8 + 2*r10]
-	lea	rax, [rdx + 2*r10]
+	je	.LBB0_50
+# %bb.51:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_52:                               # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_52
+	jmp	.LBB0_53
+.LBB0_386:
+	lea	rsi, [r8 + r10]
+	lea	rax, [rdx + r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 2*r10]
+	seta	r9b
+	lea	rax, [rcx + r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_433
-# %bb.425:
-	and	al, r11b
-	jne	.LBB0_433
-# %bb.426:
+	test	r9b, r11b
+	jne	.LBB0_395
+# %bb.387:
+	and	al, dil
+	jne	.LBB0_395
+# %bb.388:
 	mov	esi, r10d
-	and	esi, -16
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
+	and	esi, -32
+	lea	rax, [rsi - 32]
+	mov	r9, rax
+	shr	r9, 5
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_427
-# %bb.428:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_429:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rax], xmm0
-	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 32]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 48]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rax + 32], xmm0
-	movdqu	xmmword ptr [r8 + 2*rax + 48], xmm1
-	add	rax, 32
-	add	rbx, 2
-	jne	.LBB0_429
-	jmp	.LBB0_430
-.LBB0_482:
-	lea	rsi, [r8 + 8*r10]
-	lea	rax, [rdx + 8*r10]
+	je	.LBB0_389
+# %bb.390:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_391:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	add	rdi, 64
+	add	rax, 2
+	jne	.LBB0_391
+	jmp	.LBB0_392
+.LBB0_287:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + 8*r10]
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_491
-# %bb.483:
-	and	al, r11b
-	jne	.LBB0_491
-# %bb.484:
+	test	r9b, r11b
+	jne	.LBB0_296
+# %bb.288:
+	and	al, dil
+	jne	.LBB0_296
+# %bb.289:
 	mov	esi, r10d
-	and	esi, -4
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_485
-# %bb.486:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_487:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rax], xmm0
-	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 32]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 48]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rax + 32], xmm0
-	movdqu	xmmword ptr [r8 + 8*rax + 48], xmm1
-	add	rax, 8
-	add	rbx, 2
-	jne	.LBB0_487
-	jmp	.LBB0_488
-.LBB0_498:
+	je	.LBB0_290
+# %bb.291:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_292:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_292
+	jmp	.LBB0_293
+.LBB0_626:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
-	seta	r14b
+	seta	r9b
 	lea	rax, [rcx + 4*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_507
-# %bb.499:
-	and	al, r11b
-	jne	.LBB0_507
-# %bb.500:
+	test	r9b, r11b
+	jne	.LBB0_635
+# %bb.627:
+	and	al, dil
+	jne	.LBB0_635
+# %bb.628:
 	mov	esi, r10d
 	and	esi, -8
 	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_501
-# %bb.502:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_503:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rax]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rax + 16]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rax], xmm0
-	movups	xmmword ptr [r8 + 4*rax + 16], xmm1
-	movups	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movups	xmm2, xmmword ptr [rcx + 4*rax + 32]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rax + 48]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rax + 32], xmm0
-	movups	xmmword ptr [r8 + 4*rax + 48], xmm1
-	add	rax, 16
-	add	rbx, 2
-	jne	.LBB0_503
-	jmp	.LBB0_504
-.LBB0_379:
-	lea	rsi, [r8 + r10]
-	lea	rax, [rdx + r10]
+	je	.LBB0_629
+# %bb.630:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_631:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_631
+	jmp	.LBB0_632
+.LBB0_121:
+	lea	rsi, [r8 + 4*r10]
+	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
-	seta	r14b
-	lea	rax, [rcx + r10]
+	seta	r9b
+	lea	rax, [rcx + 4*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_388
-# %bb.380:
-	and	al, r11b
-	jne	.LBB0_388
-# %bb.381:
+	test	r9b, r11b
+	jne	.LBB0_130
+# %bb.122:
+	and	al, dil
+	jne	.LBB0_130
+# %bb.123:
 	mov	esi, r10d
-	and	esi, -32
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
+	and	esi, -8
+	lea	rax, [rsi - 8]
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_382
-# %bb.383:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_384:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + rax]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rax]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rax + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rax], xmm0
-	movdqu	xmmword ptr [r8 + rax + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + rax + 32]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rax + 48]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rax + 32], xmm0
-	movdqu	xmmword ptr [r8 + rax + 48], xmm1
-	add	rax, 64
-	add	rbx, 2
-	jne	.LBB0_384
-	jmp	.LBB0_385
-.LBB0_453:
+	je	.LBB0_124
+# %bb.125:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_126:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_126
+	jmp	.LBB0_127
+.LBB0_460:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
-	seta	r14b
+	seta	r9b
 	lea	rax, [rcx + 4*r10]
 	cmp	rsi, rdx
-	seta	bl
+	seta	r11b
 	cmp	rax, r8
 	seta	al
 	cmp	rsi, rcx
-	seta	r11b
+	seta	dil
 	xor	esi, esi
-	test	r14b, bl
-	jne	.LBB0_462
-# %bb.454:
-	and	al, r11b
-	jne	.LBB0_462
-# %bb.455:
+	test	r9b, r11b
+	jne	.LBB0_469
+# %bb.461:
+	and	al, dil
+	jne	.LBB0_469
+# %bb.462:
 	mov	esi, r10d
 	and	esi, -8
 	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
+	mov	r9, rax
+	shr	r9, 3
+	add	r9, 1
 	test	rax, rax
-	je	.LBB0_456
-# %bb.457:
-	mov	rbx, r11
-	and	rbx, -2
-	neg	rbx
-	xor	eax, eax
-.LBB0_458:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
+	je	.LBB0_463
+# %bb.464:
+	mov	rax, r9
+	and	rax, -2
+	neg	rax
+	xor	edi, edi
+.LBB0_465:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
 	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
 	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rax], xmm0
-	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm1
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax + 32]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 48]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 32]
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
 	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 48]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
 	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rax + 32], xmm0
-	movdqu	xmmword ptr [r8 + 4*rax + 48], xmm1
-	add	rax, 16
-	add	rbx, 2
-	jne	.LBB0_458
-	jmp	.LBB0_459
-.LBB0_440:
-	xor	eax, eax
-.LBB0_443:
-	test	r11b, 1
-	je	.LBB0_445
-# %bb.444:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rax, 2
+	jne	.LBB0_465
+	jmp	.LBB0_466
+.LBB0_274:
+	xor	edi, edi
+.LBB0_277:
+	test	r9b, 1
+	je	.LBB0_279
+# %bb.278:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_279:
+	cmp	rsi, r10
+	jne	.LBB0_280
+	jmp	.LBB0_697
+.LBB0_613:
+	xor	edi, edi
+.LBB0_616:
+	test	r9b, 1
+	je	.LBB0_618
+# %bb.617:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
 	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
 	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rax], xmm0
-	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm1
-.LBB0_445:
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_618:
 	cmp	rsi, r10
-	je	.LBB0_524
-.LBB0_446:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_448
-	.p2align	4, 0x90
-.LBB0_447:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_447
-.LBB0_448:
-	cmp	r11, 3
-	jb	.LBB0_524
-	.p2align	4, 0x90
-.LBB0_449:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_449
-	jmp	.LBB0_524
-.LBB0_514:
-	xor	eax, eax
-.LBB0_517:
-	test	r11b, 1
-	je	.LBB0_519
-# %bb.518:
-	movupd	xmm0, xmmword ptr [rdx + 8*rax]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rax]
+	jne	.LBB0_619
+	jmp	.LBB0_697
+.LBB0_108:
+	xor	edi, edi
+.LBB0_111:
+	test	r9b, 1
+	je	.LBB0_113
+# %bb.112:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_113:
+	cmp	rsi, r10
+	jne	.LBB0_114
+	jmp	.LBB0_697
+.LBB0_447:
+	xor	edi, edi
+.LBB0_450:
+	test	r9b, 1
+	je	.LBB0_452
+# %bb.451:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_452:
+	cmp	rsi, r10
+	jne	.LBB0_453
+	jmp	.LBB0_697
+.LBB0_348:
+	xor	edi, edi
+.LBB0_351:
+	test	r9b, 1
+	je	.LBB0_353
+# %bb.352:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB0_353:
+	cmp	rsi, r10
+	jne	.LBB0_354
+	jmp	.LBB0_697
+.LBB0_687:
+	xor	edi, edi
+.LBB0_690:
+	test	r9b, 1
+	je	.LBB0_692
+# %bb.691:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
 	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rax + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
 	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rax], xmm0
-	movupd	xmmword ptr [r8 + 8*rax + 16], xmm1
-.LBB0_519:
+	movupd	xmmword ptr [r8 + 8*rdi], xmm0
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_692:
 	cmp	rsi, r10
-	je	.LBB0_524
-.LBB0_520:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_522
-	.p2align	4, 0x90
-.LBB0_521:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_521
-.LBB0_522:
-	cmp	rax, 3
-	jb	.LBB0_524
-	.p2align	4, 0x90
-.LBB0_523:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 8]
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 16]
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 24]
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_523
-	jmp	.LBB0_524
-.LBB0_395:
-	xor	eax, eax
-.LBB0_398:
-	test	r11b, 1
-	je	.LBB0_400
-# %bb.399:
-	movdqu	xmm0, xmmword ptr [rdx + rax]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rax]
+	jne	.LBB0_693
+	jmp	.LBB0_697
+.LBB0_182:
+	xor	edi, edi
+.LBB0_185:
+	test	r9b, 1
+	je	.LBB0_187
+# %bb.186:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB0_187:
+	cmp	rsi, r10
+	jne	.LBB0_188
+	jmp	.LBB0_697
+.LBB0_521:
+	xor	edi, edi
+.LBB0_524:
+	test	r9b, 1
+	je	.LBB0_526
+# %bb.525:
+	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rdi], xmm0
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_526:
+	cmp	rsi, r10
+	jne	.LBB0_527
+	jmp	.LBB0_697
+.LBB0_229:
+	xor	edi, edi
+.LBB0_232:
+	test	r9b, 1
+	je	.LBB0_234
+# %bb.233:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB0_234:
+	cmp	rsi, r10
+	jne	.LBB0_235
+	jmp	.LBB0_697
+.LBB0_568:
+	xor	edi, edi
+.LBB0_571:
+	test	r9b, 1
+	je	.LBB0_573
+# %bb.572:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
 	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
 	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rax], xmm0
-	movdqu	xmmword ptr [r8 + rax + 16], xmm1
-.LBB0_400:
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+.LBB0_573:
 	cmp	rsi, r10
-	je	.LBB0_524
-.LBB0_401:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_403
-	.p2align	4, 0x90
-.LBB0_402:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_402
-.LBB0_403:
-	cmp	r11, 3
-	jb	.LBB0_524
-	.p2align	4, 0x90
-.LBB0_404:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_404
-	jmp	.LBB0_524
-.LBB0_469:
-	xor	eax, eax
-.LBB0_472:
-	test	r11b, 1
-	je	.LBB0_474
-# %bb.473:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rax], xmm0
-	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm1
-.LBB0_474:
+	jne	.LBB0_574
+	jmp	.LBB0_697
+.LBB0_63:
+	xor	edi, edi
+.LBB0_66:
+	test	r9b, 1
+	je	.LBB0_68
+# %bb.67:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB0_68:
 	cmp	rsi, r10
-	je	.LBB0_524
-.LBB0_475:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_477
-	.p2align	4, 0x90
-.LBB0_476:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_476
-.LBB0_477:
-	cmp	r11, 3
-	jb	.LBB0_524
-	.p2align	4, 0x90
-.LBB0_478:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_478
-	jmp	.LBB0_524
-.LBB0_411:
-	xor	eax, eax
-.LBB0_414:
-	test	r11b, 1
-	je	.LBB0_416
-# %bb.415:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rax], xmm0
-	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm1
-.LBB0_416:
-	cmp	rsi, r10
-	je	.LBB0_524
-.LBB0_417:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_419
-	.p2align	4, 0x90
-.LBB0_418:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_418
-.LBB0_419:
-	cmp	r11, 3
-	jb	.LBB0_524
-	.p2align	4, 0x90
-.LBB0_420:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_420
-	jmp	.LBB0_524
-.LBB0_427:
-	xor	eax, eax
-.LBB0_430:
-	test	r11b, 1
-	je	.LBB0_432
-# %bb.431:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rax], xmm0
-	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm1
-.LBB0_432:
-	cmp	rsi, r10
-	je	.LBB0_524
-.LBB0_433:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_435
-	.p2align	4, 0x90
-.LBB0_434:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_434
-.LBB0_435:
-	cmp	r11, 3
-	jb	.LBB0_524
-	.p2align	4, 0x90
-.LBB0_436:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_436
-	jmp	.LBB0_524
-.LBB0_485:
-	xor	eax, eax
-.LBB0_488:
-	test	r11b, 1
-	je	.LBB0_490
-# %bb.489:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rax], xmm0
-	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm1
-.LBB0_490:
-	cmp	rsi, r10
-	je	.LBB0_524
-.LBB0_491:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_493
-	.p2align	4, 0x90
-.LBB0_492:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_492
-.LBB0_493:
-	cmp	r11, 3
-	jb	.LBB0_524
-	.p2align	4, 0x90
-.LBB0_494:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_494
-	jmp	.LBB0_524
-.LBB0_501:
-	xor	eax, eax
-.LBB0_504:
-	test	r11b, 1
-	je	.LBB0_506
-# %bb.505:
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rax]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rax + 16]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rax], xmm0
-	movups	xmmword ptr [r8 + 4*rax + 16], xmm1
-.LBB0_506:
-	cmp	rsi, r10
-	je	.LBB0_524
-.LBB0_507:
-	mov	rax, rsi
-	not	rax
-	add	rax, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_509
-	.p2align	4, 0x90
-.LBB0_508:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_508
-.LBB0_509:
-	cmp	rax, 3
-	jb	.LBB0_524
-	.p2align	4, 0x90
-.LBB0_510:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 4]
-	movss	dword ptr [r8 + 4*rsi + 4], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 8]
-	movss	dword ptr [r8 + 4*rsi + 8], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 12]
-	movss	dword ptr [r8 + 4*rsi + 12], xmm0
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_510
-	jmp	.LBB0_524
-.LBB0_382:
-	xor	eax, eax
-.LBB0_385:
-	test	r11b, 1
-	je	.LBB0_387
-# %bb.386:
-	movdqu	xmm0, xmmword ptr [rdx + rax]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rax]
+	jne	.LBB0_69
+	jmp	.LBB0_697
+.LBB0_402:
+	xor	edi, edi
+.LBB0_405:
+	test	r9b, 1
+	je	.LBB0_407
+# %bb.406:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
 	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rax + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
 	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rax], xmm0
-	movdqu	xmmword ptr [r8 + rax + 16], xmm1
-.LBB0_387:
-	cmp	rsi, r10
-	je	.LBB0_524
-.LBB0_388:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_390
-	.p2align	4, 0x90
-.LBB0_389:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_389
-.LBB0_390:
-	cmp	r11, 3
-	jb	.LBB0_524
-	.p2align	4, 0x90
-.LBB0_391:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_391
-	jmp	.LBB0_524
-.LBB0_456:
-	xor	eax, eax
-.LBB0_459:
-	test	r11b, 1
-	je	.LBB0_461
-# %bb.460:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rax], xmm0
-	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm1
-.LBB0_461:
-	cmp	rsi, r10
-	je	.LBB0_524
-.LBB0_462:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB0_464
-	.p2align	4, 0x90
-.LBB0_463:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB0_463
-.LBB0_464:
-	cmp	r11, 3
-	jb	.LBB0_524
-	.p2align	4, 0x90
-.LBB0_465:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB0_465
-	jmp	.LBB0_524
-.LBB0_94:
-	xor	eax, eax
-.LBB0_97:
-	test	r11b, 1
-	je	.LBB0_99
-# %bb.98:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rax], xmm2
-	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm0
-.LBB0_99:
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+.LBB0_407:
 	cmp	rsi, r10
-	je	.LBB0_178
-	jmp	.LBB0_100
-.LBB0_168:
-	xor	eax, eax
-.LBB0_171:
-	test	r11b, 1
-	je	.LBB0_173
-# %bb.172:
-	movupd	xmm0, xmmword ptr [rdx + 8*rax]
-	movupd	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movupd	xmm2, xmmword ptr [rcx + 8*rax]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rax + 16]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rax], xmm2
-	movupd	xmmword ptr [r8 + 8*rax + 16], xmm0
-.LBB0_173:
+	jne	.LBB0_408
+	jmp	.LBB0_697
+.LBB0_303:
+	xor	edi, edi
+.LBB0_306:
+	test	r9b, 1
+	je	.LBB0_308
+# %bb.307:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB0_308:
 	cmp	rsi, r10
-	je	.LBB0_178
-	jmp	.LBB0_174
-.LBB0_49:
-	xor	eax, eax
-.LBB0_52:
-	test	r11b, 1
-	je	.LBB0_54
-# %bb.53:
-	movdqu	xmm0, xmmword ptr [rdx + rax]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rax]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rax], xmm2
-	movdqu	xmmword ptr [r8 + rax + 16], xmm0
-.LBB0_54:
+	jne	.LBB0_309
+	jmp	.LBB0_697
+.LBB0_642:
+	xor	edi, edi
+.LBB0_645:
+	test	r9b, 1
+	je	.LBB0_647
+# %bb.646:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_647:
 	cmp	rsi, r10
-	je	.LBB0_178
-	jmp	.LBB0_55
-.LBB0_123:
-	xor	eax, eax
-.LBB0_126:
-	test	r11b, 1
-	je	.LBB0_128
-# %bb.127:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
+	jne	.LBB0_648
+	jmp	.LBB0_697
+.LBB0_137:
+	xor	edi, edi
+.LBB0_140:
+	test	r9b, 1
+	je	.LBB0_142
+# %bb.141:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
 	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 16]
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
 	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rax], xmm2
-	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm0
-.LBB0_128:
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB0_142:
 	cmp	rsi, r10
-	je	.LBB0_178
-	jmp	.LBB0_129
-.LBB0_65:
-	xor	eax, eax
-.LBB0_68:
-	test	r11b, 1
-	je	.LBB0_70
-# %bb.69:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rax], xmm2
-	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm0
-.LBB0_70:
+	jne	.LBB0_143
+	jmp	.LBB0_697
+.LBB0_476:
+	xor	edi, edi
+.LBB0_479:
+	test	r9b, 1
+	je	.LBB0_481
+# %bb.480:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_481:
 	cmp	rsi, r10
-	je	.LBB0_178
-	jmp	.LBB0_71
-.LBB0_81:
-	xor	eax, eax
-.LBB0_84:
-	test	r11b, 1
-	je	.LBB0_86
-# %bb.85:
-	movdqu	xmm0, xmmword ptr [rdx + 2*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 2*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rax]
+	jne	.LBB0_482
+	jmp	.LBB0_697
+.LBB0_245:
+	xor	edi, edi
+.LBB0_248:
+	test	r9b, 1
+	je	.LBB0_250
+# %bb.249:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
 	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rax + 16]
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
 	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rax], xmm2
-	movdqu	xmmword ptr [r8 + 2*rax + 16], xmm0
-.LBB0_86:
-	cmp	rsi, r10
-	je	.LBB0_178
-	jmp	.LBB0_87
-.LBB0_139:
-	xor	eax, eax
-.LBB0_142:
-	test	r11b, 1
-	je	.LBB0_144
-# %bb.143:
-	movdqu	xmm0, xmmword ptr [rdx + 8*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rax]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rax + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rax], xmm2
-	movdqu	xmmword ptr [r8 + 8*rax + 16], xmm0
-.LBB0_144:
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB0_250:
 	cmp	rsi, r10
-	je	.LBB0_178
-	jmp	.LBB0_145
-.LBB0_155:
-	xor	eax, eax
-.LBB0_158:
-	test	r11b, 1
-	je	.LBB0_160
-# %bb.159:
-	movups	xmm0, xmmword ptr [rdx + 4*rax]
-	movups	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movups	xmm2, xmmword ptr [rcx + 4*rax]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rax + 16]
+	jne	.LBB0_251
+	jmp	.LBB0_697
+.LBB0_261:
+	xor	edi, edi
+.LBB0_264:
+	test	r9b, 1
+	je	.LBB0_266
+# %bb.265:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB0_266:
+	cmp	rsi, r10
+	jne	.LBB0_267
+	jmp	.LBB0_697
+.LBB0_584:
+	xor	edi, edi
+.LBB0_587:
+	test	r9b, 1
+	je	.LBB0_589
+# %bb.588:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+.LBB0_589:
+	cmp	rsi, r10
+	jne	.LBB0_590
+	jmp	.LBB0_697
+.LBB0_600:
+	xor	edi, edi
+.LBB0_603:
+	test	r9b, 1
+	je	.LBB0_605
+# %bb.604:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+.LBB0_605:
+	cmp	rsi, r10
+	jne	.LBB0_606
+	jmp	.LBB0_697
+.LBB0_79:
+	xor	edi, edi
+.LBB0_82:
+	test	r9b, 1
+	je	.LBB0_84
+# %bb.83:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB0_84:
+	cmp	rsi, r10
+	jne	.LBB0_85
+	jmp	.LBB0_697
+.LBB0_95:
+	xor	edi, edi
+.LBB0_98:
+	test	r9b, 1
+	je	.LBB0_100
+# %bb.99:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB0_100:
+	cmp	rsi, r10
+	jne	.LBB0_101
+	jmp	.LBB0_697
+.LBB0_418:
+	xor	edi, edi
+.LBB0_421:
+	test	r9b, 1
+	je	.LBB0_423
+# %bb.422:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+.LBB0_423:
+	cmp	rsi, r10
+	jne	.LBB0_424
+	jmp	.LBB0_697
+.LBB0_434:
+	xor	edi, edi
+.LBB0_437:
+	test	r9b, 1
+	je	.LBB0_439
+# %bb.438:
+	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+.LBB0_439:
+	cmp	rsi, r10
+	jne	.LBB0_440
+	jmp	.LBB0_697
+.LBB0_319:
+	xor	edi, edi
+.LBB0_322:
+	test	r9b, 1
+	je	.LBB0_324
+# %bb.323:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB0_324:
+	cmp	rsi, r10
+	jne	.LBB0_325
+	jmp	.LBB0_697
+.LBB0_335:
+	xor	edi, edi
+.LBB0_338:
+	test	r9b, 1
+	je	.LBB0_340
+# %bb.339:
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
 	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rax], xmm2
-	movups	xmmword ptr [r8 + 4*rax + 16], xmm0
-.LBB0_160:
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_340:
 	cmp	rsi, r10
-	je	.LBB0_178
-	jmp	.LBB0_161
-.LBB0_36:
-	xor	eax, eax
-.LBB0_39:
-	test	r11b, 1
-	je	.LBB0_41
-# %bb.40:
-	movdqu	xmm0, xmmword ptr [rdx + rax]
-	movdqu	xmm1, xmmword ptr [rdx + rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + rax]
+	jne	.LBB0_341
+	jmp	.LBB0_697
+.LBB0_658:
+	xor	edi, edi
+.LBB0_661:
+	test	r9b, 1
+	je	.LBB0_663
+# %bb.662:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_663:
+	cmp	rsi, r10
+	jne	.LBB0_664
+	jmp	.LBB0_697
+.LBB0_674:
+	xor	edi, edi
+.LBB0_677:
+	test	r9b, 1
+	je	.LBB0_679
+# %bb.678:
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rdi], xmm0
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_679:
+	cmp	rsi, r10
+	jne	.LBB0_680
+	jmp	.LBB0_697
+.LBB0_153:
+	xor	edi, edi
+.LBB0_156:
+	test	r9b, 1
+	je	.LBB0_158
+# %bb.157:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB0_158:
+	cmp	rsi, r10
+	jne	.LBB0_159
+	jmp	.LBB0_697
+.LBB0_169:
+	xor	edi, edi
+.LBB0_172:
+	test	r9b, 1
+	je	.LBB0_174
+# %bb.173:
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_174:
+	cmp	rsi, r10
+	jne	.LBB0_175
+	jmp	.LBB0_697
+.LBB0_492:
+	xor	edi, edi
+.LBB0_495:
+	test	r9b, 1
+	je	.LBB0_497
+# %bb.496:
+	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_497:
+	cmp	rsi, r10
+	jne	.LBB0_498
+	jmp	.LBB0_697
+.LBB0_508:
+	xor	edi, edi
+.LBB0_511:
+	test	r9b, 1
+	je	.LBB0_513
+# %bb.512:
+	movups	xmm0, xmmword ptr [rdx + 4*rdi]
+	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rdi], xmm0
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_513:
+	cmp	rsi, r10
+	jne	.LBB0_514
+	jmp	.LBB0_697
+.LBB0_216:
+	xor	edi, edi
+.LBB0_219:
+	test	r9b, 1
+	je	.LBB0_221
+# %bb.220:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
 	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rax + 16]
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
 	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rax], xmm2
-	movdqu	xmmword ptr [r8 + rax + 16], xmm0
-.LBB0_41:
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB0_221:
 	cmp	rsi, r10
-	je	.LBB0_178
-	jmp	.LBB0_42
-.LBB0_110:
-	xor	eax, eax
-.LBB0_113:
-	test	r11b, 1
-	je	.LBB0_115
-# %bb.114:
-	movdqu	xmm0, xmmword ptr [rdx + 4*rax]
-	movdqu	xmm1, xmmword ptr [rdx + 4*rax + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rax]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rax + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rax], xmm2
-	movdqu	xmmword ptr [r8 + 4*rax + 16], xmm0
-.LBB0_115:
+	jne	.LBB0_222
+	jmp	.LBB0_697
+.LBB0_555:
+	xor	edi, edi
+.LBB0_558:
+	test	r9b, 1
+	je	.LBB0_560
+# %bb.559:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+.LBB0_560:
 	cmp	rsi, r10
-	je	.LBB0_178
-	jmp	.LBB0_116
-.Lfunc_end0:
-	.size	arithmetic_sse4, .Lfunc_end0-arithmetic_sse4
-                                        # -- End function
-	.globl	arithmetic_arr_scalar_sse4      # -- Begin function arithmetic_arr_scalar_sse4
-	.p2align	4, 0x90
-	.type	arithmetic_arr_scalar_sse4,@function
-arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r14
-	push	rbx
-	and	rsp, -8
-	cmp	sil, 1
-	jg	.LBB1_11
-# %bb.1:
-	test	sil, sil
-	je	.LBB1_28
-# %bb.2:
-	cmp	sil, 1
-	jne	.LBB1_517
-.LBB1_3:
-	cmp	edi, 6
-	jg	.LBB1_36
-# %bb.4:
-	cmp	edi, 3
-	jle	.LBB1_60
-# %bb.5:
-	cmp	edi, 4
-	je	.LBB1_98
+	jne	.LBB0_561
+	jmp	.LBB0_697
+.LBB0_50:
+	xor	edi, edi
+.LBB0_53:
+	test	r9b, 1
+	je	.LBB0_55
+# %bb.54:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB0_55:
+	cmp	rsi, r10
+	jne	.LBB0_56
+	jmp	.LBB0_697
+.LBB0_389:
+	xor	edi, edi
+.LBB0_392:
+	test	r9b, 1
+	je	.LBB0_394
+# %bb.393:
+	movdqu	xmm0, xmmword ptr [rdx + rdi]
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + rdi]
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+.LBB0_394:
+	cmp	rsi, r10
+	jne	.LBB0_395
+	jmp	.LBB0_697
+.LBB0_290:
+	xor	edi, edi
+.LBB0_293:
+	test	r9b, 1
+	je	.LBB0_295
+# %bb.294:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_295:
+	cmp	rsi, r10
+	jne	.LBB0_296
+	jmp	.LBB0_697
+.LBB0_629:
+	xor	edi, edi
+.LBB0_632:
+	test	r9b, 1
+	je	.LBB0_634
+# %bb.633:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_634:
+	cmp	rsi, r10
+	jne	.LBB0_635
+	jmp	.LBB0_697
+.LBB0_124:
+	xor	edi, edi
+.LBB0_127:
+	test	r9b, 1
+	je	.LBB0_129
+# %bb.128:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_129:
+	cmp	rsi, r10
+	jne	.LBB0_130
+	jmp	.LBB0_697
+.LBB0_463:
+	xor	edi, edi
+.LBB0_466:
+	test	r9b, 1
+	je	.LBB0_468
+# %bb.467:
+	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_468:
+	cmp	rsi, r10
+	jne	.LBB0_469
+.LBB0_697:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.Lfunc_end0:
+	.size	arithmetic_sse4, .Lfunc_end0-arithmetic_sse4
+                                        # -- End function
+	.globl	arithmetic_arr_scalar_sse4      # -- Begin function arithmetic_arr_scalar_sse4
+	.p2align	4, 0x90
+	.type	arithmetic_arr_scalar_sse4,@function
+arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	cmp	sil, 1
+	jg	.LBB1_11
+# %bb.1:
+	test	sil, sil
+	je	.LBB1_21
+# %bb.2:
+	cmp	sil, 1
+	jne	.LBB1_737
+# %bb.3:
+	cmp	edi, 6
+	jg	.LBB1_37
+# %bb.4:
+	cmp	edi, 3
+	jle	.LBB1_65
+# %bb.5:
+	cmp	edi, 4
+	je	.LBB1_105
 # %bb.6:
 	cmp	edi, 5
-	je	.LBB1_101
+	je	.LBB1_108
 # %bb.7:
 	cmp	edi, 6
-	jne	.LBB1_474
+	jne	.LBB1_737
 # %bb.8:
 	test	r9d, r9d
-	jle	.LBB1_517
+	jle	.LBB1_737
 # %bb.9:
-	mov	r14d, dword ptr [rcx]
+	mov	eax, dword ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 8
 	jb	.LBB1_10
-# %bb.164:
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB1_254
-# %bb.165:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_254
+# %bb.177:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_297
+# %bb.178:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_297
 .LBB1_10:
 	xor	esi, esi
-.LBB1_398:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_400
-	.p2align	4, 0x90
-.LBB1_399:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
+.LBB1_421:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_423
+.LBB1_422:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_399
-.LBB1_400:
-	cmp	r11, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_401:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rdi, -1
+	jne	.LBB1_422
+.LBB1_423:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_424:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_401
-	jmp	.LBB1_474
+	jne	.LBB1_424
+	jmp	.LBB1_737
 .LBB1_11:
 	cmp	sil, 2
-	je	.LBB1_474
+	je	.LBB1_29
 # %bb.12:
 	cmp	sil, 3
-	jne	.LBB1_517
-.LBB1_13:
+	jne	.LBB1_737
+# %bb.13:
 	cmp	edi, 6
-	jg	.LBB1_21
+	jg	.LBB1_44
 # %bb.14:
 	cmp	edi, 3
-	jle	.LBB1_50
+	jle	.LBB1_70
 # %bb.15:
 	cmp	edi, 4
-	je	.LBB1_70
+	je	.LBB1_111
 # %bb.16:
 	cmp	edi, 5
-	je	.LBB1_73
+	je	.LBB1_114
 # %bb.17:
 	cmp	edi, 6
-	jne	.LBB1_517
+	jne	.LBB1_737
 # %bb.18:
 	test	r9d, r9d
-	jle	.LBB1_517
+	jle	.LBB1_737
 # %bb.19:
 	mov	eax, dword ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 8
 	jb	.LBB1_20
-# %bb.134:
+# %bb.180:
 	lea	rcx, [rdx + 4*r10]
 	cmp	rcx, r8
-	jbe	.LBB1_194
-# %bb.135:
+	jbe	.LBB1_300
+# %bb.181:
 	lea	rcx, [r8 + 4*r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_194
+	jbe	.LBB1_300
 .LBB1_20:
 	xor	esi, esi
-.LBB1_318:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_320
-	.p2align	4, 0x90
-.LBB1_319:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, dword ptr [rdx + 4*rsi]
-	sub	ebx, eax
-	mov	dword ptr [r8 + 4*rsi], ebx
+.LBB1_429:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_431
+.LBB1_430:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
 	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_319
-.LBB1_320:
-	cmp	rdi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_321:                              # =>This Inner Loop Header: Depth=1
+	add	rdi, -1
+	jne	.LBB1_430
+.LBB1_431:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_432:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
 	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
@@ -4969,8559 +4899,8437 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	mov	dword ptr [r8 + 4*rsi + 12], ecx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_321
-	jmp	.LBB1_517
+	jne	.LBB1_432
+	jmp	.LBB1_737
 .LBB1_21:
-	cmp	edi, 8
-	jle	.LBB1_55
+	cmp	edi, 6
+	jg	.LBB1_51
 # %bb.22:
-	cmp	edi, 9
-	je	.LBB1_76
+	cmp	edi, 3
+	jle	.LBB1_75
 # %bb.23:
-	cmp	edi, 11
-	je	.LBB1_79
+	cmp	edi, 4
+	je	.LBB1_117
 # %bb.24:
-	cmp	edi, 12
-	jne	.LBB1_517
+	cmp	edi, 5
+	je	.LBB1_120
 # %bb.25:
-	test	r9d, r9d
-	jle	.LBB1_517
+	cmp	edi, 6
+	jne	.LBB1_737
 # %bb.26:
-	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB1_27
-# %bb.137:
-	lea	rcx, [rdx + 8*rax]
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.27:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_28
+# %bb.183:
+	lea	rcx, [rdx + 4*r10]
 	cmp	rcx, r8
-	jbe	.LBB1_197
-# %bb.138:
-	lea	rcx, [r8 + 8*rax]
+	jbe	.LBB1_303
+# %bb.184:
+	lea	rcx, [r8 + 4*r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_197
-.LBB1_27:
-	xor	ecx, ecx
-.LBB1_326:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
+	jbe	.LBB1_303
+.LBB1_28:
+	xor	esi, esi
+.LBB1_437:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB1_328
-	.p2align	4, 0x90
-.LBB1_327:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	add	rcx, 1
+	je	.LBB1_439
+.LBB1_438:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB1_327
-.LBB1_328:
-	cmp	rsi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_329:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_329
-	jmp	.LBB1_517
-.LBB1_28:
+	jne	.LBB1_438
+.LBB1_439:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_440:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_440
+	jmp	.LBB1_737
+.LBB1_29:
 	cmp	edi, 6
-	jg	.LBB1_43
-# %bb.29:
-	cmp	edi, 3
-	jle	.LBB1_88
+	jg	.LBB1_58
 # %bb.30:
-	cmp	edi, 4
-	je	.LBB1_116
+	cmp	edi, 3
+	jle	.LBB1_80
 # %bb.31:
-	cmp	edi, 5
-	je	.LBB1_119
+	cmp	edi, 4
+	je	.LBB1_123
 # %bb.32:
-	cmp	edi, 6
-	jne	.LBB1_3
+	cmp	edi, 5
+	je	.LBB1_126
 # %bb.33:
-	test	r9d, r9d
-	jle	.LBB1_517
+	cmp	edi, 6
+	jne	.LBB1_737
 # %bb.34:
-	mov	r14d, dword ptr [rcx]
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.35:
+	mov	eax, dword ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 8
-	jb	.LBB1_35
-# %bb.224:
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB1_284
-# %bb.225:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_284
-.LBB1_35:
-	xor	esi, esi
-.LBB1_662:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_664
-.LBB1_663:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_663
-.LBB1_664:
-	cmp	r11, 3
-	jb	.LBB1_3
-.LBB1_665:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+	jb	.LBB1_36
+# %bb.186:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_306
+# %bb.187:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_306
+.LBB1_36:
+	xor	esi, esi
+.LBB1_445:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_447
+.LBB1_446:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_446
+.LBB1_447:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_448:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_665
-	jmp	.LBB1_3
-.LBB1_36:
+	jne	.LBB1_448
+	jmp	.LBB1_737
+.LBB1_37:
 	cmp	edi, 8
-	jle	.LBB1_65
-# %bb.37:
-	cmp	edi, 9
-	je	.LBB1_104
+	jle	.LBB1_85
 # %bb.38:
-	cmp	edi, 11
-	je	.LBB1_107
+	cmp	edi, 9
+	je	.LBB1_129
 # %bb.39:
-	cmp	edi, 12
-	jne	.LBB1_474
+	cmp	edi, 11
+	je	.LBB1_132
 # %bb.40:
-	test	r9d, r9d
-	jle	.LBB1_517
+	cmp	edi, 12
+	jne	.LBB1_737
 # %bb.41:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.42:
 	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	r11d, r9d
+	mov	eax, r9d
 	cmp	r9d, 4
-	jb	.LBB1_42
-# %bb.167:
-	lea	rax, [rdx + 8*r11]
-	cmp	rax, r8
-	jbe	.LBB1_257
-# %bb.168:
-	lea	rax, [r8 + 8*r11]
-	cmp	rax, rdx
-	jbe	.LBB1_257
-.LBB1_42:
-	xor	esi, esi
-.LBB1_406:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB1_408
-	.p2align	4, 0x90
-.LBB1_407:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	jb	.LBB1_43
+# %bb.189:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_309
+# %bb.190:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_309
+.LBB1_43:
+	xor	ecx, ecx
+.LBB1_453:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_455
+.LBB1_454:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
 	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_407
-.LBB1_408:
-	cmp	rax, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_409:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_454
+.LBB1_455:
+	cmp	rsi, 3
+	jb	.LBB1_737
+.LBB1_456:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
 	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
 	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
+	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
 	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
+	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
 	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB1_409
-	jmp	.LBB1_474
-.LBB1_43:
+	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_456
+	jmp	.LBB1_737
+.LBB1_44:
 	cmp	edi, 8
-	jle	.LBB1_93
-# %bb.44:
-	cmp	edi, 9
-	je	.LBB1_122
+	jle	.LBB1_90
 # %bb.45:
-	cmp	edi, 11
-	je	.LBB1_125
+	cmp	edi, 9
+	je	.LBB1_135
 # %bb.46:
-	cmp	edi, 12
-	jne	.LBB1_3
+	cmp	edi, 11
+	je	.LBB1_138
 # %bb.47:
-	test	r9d, r9d
-	jle	.LBB1_517
+	cmp	edi, 12
+	jne	.LBB1_737
 # %bb.48:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.49:
 	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	r11d, r9d
+	mov	eax, r9d
 	cmp	r9d, 4
-	jb	.LBB1_49
-# %bb.227:
-	lea	rax, [rdx + 8*r11]
-	cmp	rax, r8
-	jbe	.LBB1_287
-# %bb.228:
-	lea	rax, [r8 + 8*r11]
-	cmp	rax, rdx
-	jbe	.LBB1_287
-.LBB1_49:
-	xor	esi, esi
-.LBB1_670:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB1_672
-.LBB1_671:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	jb	.LBB1_50
+# %bb.192:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_312
+# %bb.193:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_312
+.LBB1_50:
+	xor	ecx, ecx
+.LBB1_461:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_463
+.LBB1_462:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_462
+.LBB1_463:
+	cmp	rsi, 3
+	jb	.LBB1_737
+.LBB1_464:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_464
+	jmp	.LBB1_737
+.LBB1_51:
+	cmp	edi, 8
+	jle	.LBB1_95
+# %bb.52:
+	cmp	edi, 9
+	je	.LBB1_141
+# %bb.53:
+	cmp	edi, 11
+	je	.LBB1_144
+# %bb.54:
+	cmp	edi, 12
+	jne	.LBB1_737
+# %bb.55:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.56:
+	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB1_57
+# %bb.195:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_315
+# %bb.196:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_315
+.LBB1_57:
+	xor	ecx, ecx
+.LBB1_469:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_471
+.LBB1_470:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
 	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_671
-.LBB1_672:
-	cmp	rax, 3
-	jb	.LBB1_3
-.LBB1_673:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_470
+.LBB1_471:
+	cmp	rsi, 3
+	jb	.LBB1_737
+.LBB1_472:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
 	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
 	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
+	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
 	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
+	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
 	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB1_673
-	jmp	.LBB1_3
-.LBB1_50:
+	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_472
+	jmp	.LBB1_737
+.LBB1_58:
+	cmp	edi, 8
+	jle	.LBB1_100
+# %bb.59:
+	cmp	edi, 9
+	je	.LBB1_147
+# %bb.60:
+	cmp	edi, 11
+	je	.LBB1_150
+# %bb.61:
+	cmp	edi, 12
+	jne	.LBB1_737
+# %bb.62:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.63:
+	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB1_64
+# %bb.198:
+	lea	rcx, [rdx + 8*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_318
+# %bb.199:
+	lea	rcx, [r8 + 8*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_318
+.LBB1_64:
+	xor	ecx, ecx
+.LBB1_477:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_479
+.LBB1_478:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_478
+.LBB1_479:
+	cmp	rsi, 3
+	jb	.LBB1_737
+.LBB1_480:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
+	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
+	subsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_480
+	jmp	.LBB1_737
+.LBB1_65:
 	cmp	edi, 2
-	je	.LBB1_82
-# %bb.51:
+	je	.LBB1_153
+# %bb.66:
 	cmp	edi, 3
-	jne	.LBB1_517
-# %bb.52:
+	jne	.LBB1_737
+# %bb.67:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.53:
+	jle	.LBB1_737
+# %bb.68:
 	mov	al, byte ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jb	.LBB1_54
-# %bb.140:
+	jb	.LBB1_69
+# %bb.201:
 	lea	rcx, [rdx + r10]
 	cmp	rcx, r8
-	jbe	.LBB1_200
-# %bb.141:
+	jbe	.LBB1_321
+# %bb.202:
 	lea	rcx, [r8 + r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_200
-.LBB1_54:
-	xor	esi, esi
-.LBB1_334:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_336
-	.p2align	4, 0x90
-.LBB1_335:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, byte ptr [rdx + rsi]
-	sub	bl, al
-	mov	byte ptr [r8 + rsi], bl
+	jbe	.LBB1_321
+.LBB1_69:
+	xor	esi, esi
+.LBB1_485:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_487
+.LBB1_486:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
 	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_335
-.LBB1_336:
-	cmp	rdi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_337:                              # =>This Inner Loop Header: Depth=1
+	add	rdi, -1
+	jne	.LBB1_486
+.LBB1_487:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_488:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi], cl
 	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi + 1], cl
 	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi + 2], cl
 	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi + 3], cl
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_337
-	jmp	.LBB1_517
-.LBB1_55:
-	cmp	edi, 7
-	je	.LBB1_85
-# %bb.56:
-	cmp	edi, 8
-	jne	.LBB1_517
-# %bb.57:
+	jne	.LBB1_488
+	jmp	.LBB1_737
+.LBB1_70:
+	cmp	edi, 2
+	je	.LBB1_156
+# %bb.71:
+	cmp	edi, 3
+	jne	.LBB1_737
+# %bb.72:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.58:
-	mov	rax, qword ptr [rcx]
+	jle	.LBB1_737
+# %bb.73:
+	mov	al, byte ptr [rcx]
 	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_59
-# %bb.143:
-	lea	rcx, [rdx + 8*r10]
+	cmp	r9d, 32
+	jb	.LBB1_74
+# %bb.204:
+	lea	rcx, [rdx + r10]
 	cmp	rcx, r8
-	jbe	.LBB1_203
-# %bb.144:
-	lea	rcx, [r8 + 8*r10]
+	jbe	.LBB1_324
+# %bb.205:
+	lea	rcx, [r8 + r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_203
-.LBB1_59:
+	jbe	.LBB1_324
+.LBB1_74:
 	xor	esi, esi
-.LBB1_342:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_344
-	.p2align	4, 0x90
-.LBB1_343:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, qword ptr [rdx + 8*rsi]
-	sub	rbx, rax
-	mov	qword ptr [r8 + 8*rsi], rbx
+.LBB1_493:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_495
+.LBB1_494:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
 	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_343
-.LBB1_344:
-	cmp	rdi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_345:                              # =>This Inner Loop Header: Depth=1
-	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rcx
-	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rdi, -1
+	jne	.LBB1_494
+.LBB1_495:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_496:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_345
-	jmp	.LBB1_517
-.LBB1_60:
+	jne	.LBB1_496
+	jmp	.LBB1_737
+.LBB1_75:
 	cmp	edi, 2
-	je	.LBB1_110
-# %bb.61:
+	je	.LBB1_159
+# %bb.76:
 	cmp	edi, 3
-	jne	.LBB1_474
-# %bb.62:
+	jne	.LBB1_737
+# %bb.77:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.63:
-	mov	r14b, byte ptr [rcx]
+	jle	.LBB1_737
+# %bb.78:
+	mov	al, byte ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jb	.LBB1_64
-# %bb.170:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_260
-# %bb.171:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_260
-.LBB1_64:
-	xor	esi, esi
-.LBB1_414:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_416
-	.p2align	4, 0x90
-.LBB1_415:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_415
-.LBB1_416:
-	cmp	r11, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_417:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_417
-	jmp	.LBB1_474
-.LBB1_65:
-	cmp	edi, 7
-	je	.LBB1_113
-# %bb.66:
-	cmp	edi, 8
-	jne	.LBB1_474
-# %bb.67:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.68:
-	mov	r14, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_69
-# %bb.173:
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB1_263
-# %bb.174:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_263
-.LBB1_69:
-	xor	esi, esi
-.LBB1_422:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_424
-	.p2align	4, 0x90
-.LBB1_423:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_423
-.LBB1_424:
-	cmp	r11, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_425:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_425
-	jmp	.LBB1_474
-.LBB1_70:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.71:
-	movzx	eax, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_72
-# %bb.146:
-	lea	rcx, [rdx + 2*r10]
+	jb	.LBB1_79
+# %bb.207:
+	lea	rcx, [rdx + r10]
 	cmp	rcx, r8
-	jbe	.LBB1_206
-# %bb.147:
-	lea	rcx, [r8 + 2*r10]
+	jbe	.LBB1_327
+# %bb.208:
+	lea	rcx, [r8 + r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_206
-.LBB1_72:
-	xor	esi, esi
-.LBB1_350:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_352
-	.p2align	4, 0x90
-.LBB1_351:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rdx + 2*rsi]
-	sub	ebx, eax
-	mov	word ptr [r8 + 2*rsi], bx
+	jbe	.LBB1_327
+.LBB1_79:
+	xor	esi, esi
+.LBB1_501:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_503
+.LBB1_502:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
 	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_351
-.LBB1_352:
-	cmp	rdi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_353:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rdi, -1
+	jne	.LBB1_502
+.LBB1_503:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_504:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_353
-	jmp	.LBB1_517
-.LBB1_73:
+	jne	.LBB1_504
+	jmp	.LBB1_737
+.LBB1_80:
+	cmp	edi, 2
+	je	.LBB1_162
+# %bb.81:
+	cmp	edi, 3
+	jne	.LBB1_737
+# %bb.82:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.74:
-	movzx	eax, word ptr [rcx]
+	jle	.LBB1_737
+# %bb.83:
+	mov	al, byte ptr [rcx]
 	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_75
-# %bb.149:
-	lea	rcx, [rdx + 2*r10]
+	cmp	r9d, 32
+	jb	.LBB1_84
+# %bb.210:
+	lea	rcx, [rdx + r10]
 	cmp	rcx, r8
-	jbe	.LBB1_209
-# %bb.150:
-	lea	rcx, [r8 + 2*r10]
+	jbe	.LBB1_330
+# %bb.211:
+	lea	rcx, [r8 + r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_209
-.LBB1_75:
+	jbe	.LBB1_330
+.LBB1_84:
 	xor	esi, esi
-.LBB1_358:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_360
-	.p2align	4, 0x90
-.LBB1_359:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, word ptr [rdx + 2*rsi]
-	sub	ebx, eax
-	mov	word ptr [r8 + 2*rsi], bx
+.LBB1_509:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_511
+.LBB1_510:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
 	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_359
-.LBB1_360:
-	cmp	rdi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_361:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 2], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 4], cx
-	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
-	mov	word ptr [r8 + 2*rsi + 6], cx
+	add	rdi, -1
+	jne	.LBB1_510
+.LBB1_511:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_512:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_361
-	jmp	.LBB1_517
-.LBB1_76:
+	jne	.LBB1_512
+	jmp	.LBB1_737
+.LBB1_85:
+	cmp	edi, 7
+	je	.LBB1_165
+# %bb.86:
+	cmp	edi, 8
+	jne	.LBB1_737
+# %bb.87:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.77:
+	jle	.LBB1_737
+# %bb.88:
 	mov	rax, qword ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 4
-	jb	.LBB1_78
-# %bb.152:
+	jb	.LBB1_89
+# %bb.213:
 	lea	rcx, [rdx + 8*r10]
 	cmp	rcx, r8
-	jbe	.LBB1_212
-# %bb.153:
+	jbe	.LBB1_333
+# %bb.214:
 	lea	rcx, [r8 + 8*r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_212
-.LBB1_78:
+	jbe	.LBB1_333
+.LBB1_89:
 	xor	esi, esi
-.LBB1_366:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_368
-	.p2align	4, 0x90
-.LBB1_367:                              # =>This Inner Loop Header: Depth=1
-	mov	rbx, qword ptr [rdx + 8*rsi]
-	sub	rbx, rax
-	mov	qword ptr [r8 + 8*rsi], rbx
+.LBB1_517:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_519
+.LBB1_518:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_367
-.LBB1_368:
-	cmp	rdi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_369:                              # =>This Inner Loop Header: Depth=1
+	add	rdi, -1
+	jne	.LBB1_518
+.LBB1_519:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_520:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 8], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 16], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_369
-	jmp	.LBB1_517
-.LBB1_79:
+	jne	.LBB1_520
+	jmp	.LBB1_737
+.LBB1_90:
+	cmp	edi, 7
+	je	.LBB1_168
+# %bb.91:
+	cmp	edi, 8
+	jne	.LBB1_737
+# %bb.92:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.80:
-	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB1_81
-# %bb.155:
-	lea	rcx, [rdx + 4*rax]
+	jle	.LBB1_737
+# %bb.93:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_94
+# %bb.216:
+	lea	rcx, [rdx + 8*r10]
 	cmp	rcx, r8
-	jbe	.LBB1_215
-# %bb.156:
-	lea	rcx, [r8 + 4*rax]
+	jbe	.LBB1_336
+# %bb.217:
+	lea	rcx, [r8 + 8*r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_215
-.LBB1_81:
-	xor	ecx, ecx
-.LBB1_374:
-	mov	rsi, rcx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
+	jbe	.LBB1_336
+.LBB1_94:
+	xor	esi, esi
+.LBB1_525:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB1_376
-	.p2align	4, 0x90
-.LBB1_375:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	add	rcx, 1
+	je	.LBB1_527
+.LBB1_526:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB1_375
-.LBB1_376:
-	cmp	rsi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_377:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rcx + 12], xmm1
-	add	rcx, 4
-	cmp	rax, rcx
-	jne	.LBB1_377
-	jmp	.LBB1_517
-.LBB1_82:
+	jne	.LBB1_526
+.LBB1_527:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_528:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_528
+	jmp	.LBB1_737
+.LBB1_95:
+	cmp	edi, 7
+	je	.LBB1_171
+# %bb.96:
+	cmp	edi, 8
+	jne	.LBB1_737
+# %bb.97:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.83:
-	mov	al, byte ptr [rcx]
+	jle	.LBB1_737
+# %bb.98:
+	mov	rax, qword ptr [rcx]
 	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_84
-# %bb.158:
-	lea	rcx, [rdx + r10]
+	cmp	r9d, 4
+	jb	.LBB1_99
+# %bb.219:
+	lea	rcx, [rdx + 8*r10]
 	cmp	rcx, r8
-	jbe	.LBB1_218
-# %bb.159:
-	lea	rcx, [r8 + r10]
+	jbe	.LBB1_339
+# %bb.220:
+	lea	rcx, [r8 + 8*r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_218
-.LBB1_84:
-	xor	esi, esi
-.LBB1_382:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_384
-	.p2align	4, 0x90
-.LBB1_383:                              # =>This Inner Loop Header: Depth=1
-	movzx	ebx, byte ptr [rdx + rsi]
-	sub	bl, al
-	mov	byte ptr [r8 + rsi], bl
+	jbe	.LBB1_339
+.LBB1_99:
+	xor	esi, esi
+.LBB1_533:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_535
+.LBB1_534:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_383
-.LBB1_384:
-	cmp	rdi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_385:                              # =>This Inner Loop Header: Depth=1
-	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi], cl
-	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 1], cl
-	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 2], cl
-	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
-	mov	byte ptr [r8 + rsi + 3], cl
+	add	rdi, -1
+	jne	.LBB1_534
+.LBB1_535:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_536:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_385
-	jmp	.LBB1_517
-.LBB1_85:
+	jne	.LBB1_536
+	jmp	.LBB1_737
+.LBB1_100:
+	cmp	edi, 7
+	je	.LBB1_174
+# %bb.101:
+	cmp	edi, 8
+	jne	.LBB1_737
+# %bb.102:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.86:
-	mov	eax, dword ptr [rcx]
+	jle	.LBB1_737
+# %bb.103:
+	mov	rax, qword ptr [rcx]
 	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_87
-# %bb.161:
-	lea	rcx, [rdx + 4*r10]
+	cmp	r9d, 4
+	jb	.LBB1_104
+# %bb.222:
+	lea	rcx, [rdx + 8*r10]
 	cmp	rcx, r8
-	jbe	.LBB1_221
-# %bb.162:
-	lea	rcx, [r8 + 4*r10]
+	jbe	.LBB1_342
+# %bb.223:
+	lea	rcx, [r8 + 8*r10]
 	cmp	rcx, rdx
-	jbe	.LBB1_221
-.LBB1_87:
+	jbe	.LBB1_342
+.LBB1_104:
 	xor	esi, esi
-.LBB1_390:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rcx, r10
-	and	rcx, 3
-	je	.LBB1_392
-	.p2align	4, 0x90
-.LBB1_391:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, dword ptr [rdx + 4*rsi]
-	sub	ebx, eax
-	mov	dword ptr [r8 + 4*rsi], ebx
+.LBB1_541:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_543
+.LBB1_542:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
-	add	rcx, -1
-	jne	.LBB1_391
-.LBB1_392:
-	cmp	rdi, 3
-	jb	.LBB1_517
-	.p2align	4, 0x90
-.LBB1_393:                              # =>This Inner Loop Header: Depth=1
-	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], ecx
-	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rdi, -1
+	jne	.LBB1_542
+.LBB1_543:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_544:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_393
-	jmp	.LBB1_517
-.LBB1_88:
-	cmp	edi, 2
-	je	.LBB1_128
-# %bb.89:
-	cmp	edi, 3
-	jne	.LBB1_3
-# %bb.90:
+	jne	.LBB1_544
+	jmp	.LBB1_737
+.LBB1_105:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.91:
-	mov	r14b, byte ptr [rcx]
+	jle	.LBB1_737
+# %bb.106:
+	movzx	eax, word ptr [rcx]
 	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_92
-# %bb.230:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_290
-# %bb.231:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_290
-.LBB1_92:
-	xor	esi, esi
-.LBB1_678:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_680
-.LBB1_679:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
+	cmp	r9d, 16
+	jb	.LBB1_107
+# %bb.225:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_345
+# %bb.226:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_345
+.LBB1_107:
+	xor	esi, esi
+.LBB1_549:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_551
+.LBB1_550:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_679
-.LBB1_680:
-	cmp	r11, 3
-	jb	.LBB1_3
-.LBB1_681:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
+	add	rdi, -1
+	jne	.LBB1_550
+.LBB1_551:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_552:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_681
-	jmp	.LBB1_3
-.LBB1_93:
-	cmp	edi, 7
-	je	.LBB1_131
-# %bb.94:
-	cmp	edi, 8
-	jne	.LBB1_3
-# %bb.95:
+	jne	.LBB1_552
+	jmp	.LBB1_737
+.LBB1_108:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.96:
-	mov	r14, qword ptr [rcx]
+	jle	.LBB1_737
+# %bb.109:
+	movzx	eax, word ptr [rcx]
 	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_97
-# %bb.233:
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB1_293
-# %bb.234:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_293
-.LBB1_97:
-	xor	esi, esi
-.LBB1_686:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_688
-.LBB1_687:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
+	cmp	r9d, 16
+	jb	.LBB1_110
+# %bb.228:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_348
+# %bb.229:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_348
+.LBB1_110:
+	xor	esi, esi
+.LBB1_557:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_559
+.LBB1_558:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_687
-.LBB1_688:
-	cmp	r11, 3
-	jb	.LBB1_3
-.LBB1_689:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rdi, -1
+	jne	.LBB1_558
+.LBB1_559:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_560:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_689
-	jmp	.LBB1_3
-.LBB1_98:
+	jne	.LBB1_560
+	jmp	.LBB1_737
+.LBB1_111:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.99:
-	movzx	r14d, word ptr [rcx]
+	jle	.LBB1_737
+# %bb.112:
+	movzx	eax, word ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jb	.LBB1_100
-# %bb.176:
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB1_266
-# %bb.177:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_266
-.LBB1_100:
-	xor	esi, esi
-.LBB1_430:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_432
-	.p2align	4, 0x90
-.LBB1_431:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
+	jb	.LBB1_113
+# %bb.231:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_351
+# %bb.232:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_351
+.LBB1_113:
+	xor	esi, esi
+.LBB1_565:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_567
+.LBB1_566:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_431
-.LBB1_432:
-	cmp	r11, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_433:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rdi, -1
+	jne	.LBB1_566
+.LBB1_567:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_568:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_433
-	jmp	.LBB1_474
-.LBB1_101:
+	jne	.LBB1_568
+	jmp	.LBB1_737
+.LBB1_114:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.102:
-	movzx	r14d, word ptr [rcx]
+	jle	.LBB1_737
+# %bb.115:
+	movzx	eax, word ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jb	.LBB1_103
-# %bb.179:
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB1_269
-# %bb.180:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_269
-.LBB1_103:
-	xor	esi, esi
-.LBB1_438:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_440
-	.p2align	4, 0x90
-.LBB1_439:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
+	jb	.LBB1_116
+# %bb.234:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_354
+# %bb.235:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_354
+.LBB1_116:
+	xor	esi, esi
+.LBB1_573:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_575
+.LBB1_574:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_439
-.LBB1_440:
-	cmp	r11, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_441:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rdi, -1
+	jne	.LBB1_574
+.LBB1_575:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_576:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_441
-	jmp	.LBB1_474
-.LBB1_104:
+	jne	.LBB1_576
+	jmp	.LBB1_737
+.LBB1_117:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.105:
-	mov	r14, qword ptr [rcx]
+	jle	.LBB1_737
+# %bb.118:
+	movzx	eax, word ptr [rcx]
 	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_106
-# %bb.182:
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB1_272
-# %bb.183:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_272
-.LBB1_106:
-	xor	esi, esi
-.LBB1_446:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_448
-	.p2align	4, 0x90
-.LBB1_447:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_447
-.LBB1_448:
-	cmp	r11, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_449:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_449
-	jmp	.LBB1_474
-.LBB1_107:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.108:
-	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	r11d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_109
-# %bb.185:
-	lea	rax, [rdx + 4*r11]
-	cmp	rax, r8
-	jbe	.LBB1_275
-# %bb.186:
-	lea	rax, [r8 + 4*r11]
-	cmp	rax, rdx
-	jbe	.LBB1_275
-.LBB1_109:
+	cmp	r9d, 16
+	jb	.LBB1_119
+# %bb.237:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_357
+# %bb.238:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_357
+.LBB1_119:
 	xor	esi, esi
-.LBB1_454:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB1_456
-	.p2align	4, 0x90
-.LBB1_455:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_455
-.LBB1_456:
-	cmp	rax, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_457:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB1_457
-	jmp	.LBB1_474
-.LBB1_110:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.111:
-	mov	r14b, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_112
-# %bb.188:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_278
-# %bb.189:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_278
-.LBB1_112:
-	xor	esi, esi
-.LBB1_462:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_464
-	.p2align	4, 0x90
-.LBB1_463:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
+.LBB1_581:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_583
+.LBB1_582:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_463
-.LBB1_464:
-	cmp	r11, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_465:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
+	add	rdi, -1
+	jne	.LBB1_582
+.LBB1_583:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_584:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_465
-	jmp	.LBB1_474
-.LBB1_113:
+	jne	.LBB1_584
+	jmp	.LBB1_737
+.LBB1_120:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.114:
-	mov	r14d, dword ptr [rcx]
+	jle	.LBB1_737
+# %bb.121:
+	movzx	eax, word ptr [rcx]
 	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_115
-# %bb.191:
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB1_281
-# %bb.192:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_281
-.LBB1_115:
-	xor	esi, esi
-.LBB1_470:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_472
-	.p2align	4, 0x90
-.LBB1_471:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
+	cmp	r9d, 16
+	jb	.LBB1_122
+# %bb.240:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_360
+# %bb.241:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_360
+.LBB1_122:
+	xor	esi, esi
+.LBB1_589:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_591
+.LBB1_590:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_471
-.LBB1_472:
-	cmp	r11, 3
-	jb	.LBB1_474
-	.p2align	4, 0x90
-.LBB1_473:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rdi, -1
+	jne	.LBB1_590
+.LBB1_591:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_592:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	add	cx, ax
+	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_473
-	jmp	.LBB1_474
-.LBB1_116:
+	jne	.LBB1_592
+	jmp	.LBB1_737
+.LBB1_123:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.117:
-	movzx	r14d, word ptr [rcx]
+	jle	.LBB1_737
+# %bb.124:
+	movzx	eax, word ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jb	.LBB1_118
-# %bb.236:
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB1_296
-# %bb.237:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_296
-.LBB1_118:
-	xor	esi, esi
-.LBB1_694:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_696
-.LBB1_695:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
+	jb	.LBB1_125
+# %bb.243:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_363
+# %bb.244:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_363
+.LBB1_125:
+	xor	esi, esi
+.LBB1_597:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_599
+.LBB1_598:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_695
-.LBB1_696:
-	cmp	r11, 3
-	jb	.LBB1_3
-.LBB1_697:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rdi, -1
+	jne	.LBB1_598
+.LBB1_599:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_600:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_697
-	jmp	.LBB1_3
-.LBB1_119:
+	jne	.LBB1_600
+	jmp	.LBB1_737
+.LBB1_126:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.120:
-	movzx	r14d, word ptr [rcx]
+	jle	.LBB1_737
+# %bb.127:
+	movzx	eax, word ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jb	.LBB1_121
-# %bb.239:
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB1_299
-# %bb.240:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_299
-.LBB1_121:
-	xor	esi, esi
-.LBB1_702:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_704
-.LBB1_703:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
+	jb	.LBB1_128
+# %bb.246:
+	lea	rcx, [rdx + 2*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_366
+# %bb.247:
+	lea	rcx, [r8 + 2*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_366
+.LBB1_128:
+	xor	esi, esi
+.LBB1_605:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_607
+.LBB1_606:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_703
-.LBB1_704:
-	cmp	r11, 3
-	jb	.LBB1_3
-.LBB1_705:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rdi, -1
+	jne	.LBB1_606
+.LBB1_607:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_608:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, word ptr [rdx + 2*rsi]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 2]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 2], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 4]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 4], cx
+	movzx	ecx, word ptr [rdx + 2*rsi + 6]
+	sub	ecx, eax
+	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_705
-	jmp	.LBB1_3
-.LBB1_122:
+	jne	.LBB1_608
+	jmp	.LBB1_737
+.LBB1_129:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.123:
-	mov	r14, qword ptr [rcx]
+	jle	.LBB1_737
+# %bb.130:
+	mov	rax, qword ptr [rcx]
 	mov	r10d, r9d
 	cmp	r9d, 4
-	jb	.LBB1_124
-# %bb.242:
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB1_302
-# %bb.243:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_302
-.LBB1_124:
-	xor	esi, esi
-.LBB1_710:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_712
-.LBB1_711:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
+	jb	.LBB1_131
+# %bb.249:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_369
+# %bb.250:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_369
+.LBB1_131:
+	xor	esi, esi
+.LBB1_613:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_615
+.LBB1_614:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_711
-.LBB1_712:
-	cmp	r11, 3
-	jb	.LBB1_3
-.LBB1_713:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rdi, -1
+	jne	.LBB1_614
+.LBB1_615:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_616:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_713
-	jmp	.LBB1_3
-.LBB1_125:
+	jne	.LBB1_616
+	jmp	.LBB1_737
+.LBB1_132:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.126:
+	jle	.LBB1_737
+# %bb.133:
 	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	r11d, r9d
+	mov	eax, r9d
 	cmp	r9d, 8
-	jb	.LBB1_127
-# %bb.245:
-	lea	rax, [rdx + 4*r11]
-	cmp	rax, r8
-	jbe	.LBB1_305
-# %bb.246:
-	lea	rax, [r8 + 4*r11]
-	cmp	rax, rdx
-	jbe	.LBB1_305
-.LBB1_127:
-	xor	esi, esi
-.LBB1_718:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB1_720
-.LBB1_719:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	jb	.LBB1_134
+# %bb.252:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_372
+# %bb.253:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_372
+.LBB1_134:
+	xor	ecx, ecx
+.LBB1_621:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_623
+.LBB1_622:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
 	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_719
-.LBB1_720:
-	cmp	rax, 3
-	jb	.LBB1_3
-.LBB1_721:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_622
+.LBB1_623:
+	cmp	rsi, 3
+	jb	.LBB1_737
+.LBB1_624:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
 	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
 	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
+	movss	dword ptr [r8 + 4*rcx + 4], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
 	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
+	movss	dword ptr [r8 + 4*rcx + 8], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
 	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB1_721
-	jmp	.LBB1_3
-.LBB1_128:
+	movss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_624
+	jmp	.LBB1_737
+.LBB1_135:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.129:
-	mov	r14b, byte ptr [rcx]
+	jle	.LBB1_737
+# %bb.136:
+	mov	rax, qword ptr [rcx]
 	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_130
-# %bb.248:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_308
-# %bb.249:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_308
-.LBB1_130:
-	xor	esi, esi
-.LBB1_726:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_728
-.LBB1_727:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
+	cmp	r9d, 4
+	jb	.LBB1_137
+# %bb.255:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_375
+# %bb.256:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_375
+.LBB1_137:
+	xor	esi, esi
+.LBB1_629:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_631
+.LBB1_630:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_727
-.LBB1_728:
-	cmp	r11, 3
-	jb	.LBB1_3
-.LBB1_729:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
+	add	rdi, -1
+	jne	.LBB1_630
+.LBB1_631:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_632:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_729
-	jmp	.LBB1_3
-.LBB1_131:
+	jne	.LBB1_632
+	jmp	.LBB1_737
+.LBB1_138:
 	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.132:
-	mov	r14d, dword ptr [rcx]
-	mov	r10d, r9d
+	jle	.LBB1_737
+# %bb.139:
+	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
 	cmp	r9d, 8
-	jb	.LBB1_133
-# %bb.251:
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB1_311
-# %bb.252:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_311
-.LBB1_133:
-	xor	esi, esi
-.LBB1_734:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_736
-.LBB1_735:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
+	jb	.LBB1_140
+# %bb.258:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_378
+# %bb.259:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_378
+.LBB1_140:
+	xor	ecx, ecx
+.LBB1_637:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_639
+.LBB1_638:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_638
+.LBB1_639:
+	cmp	rsi, 3
+	jb	.LBB1_737
+.LBB1_640:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 4], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 8], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_640
+	jmp	.LBB1_737
+.LBB1_141:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.142:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_143
+# %bb.261:
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_381
+# %bb.262:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_381
+.LBB1_143:
+	xor	esi, esi
+.LBB1_645:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_647
+.LBB1_646:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_735
-.LBB1_736:
-	cmp	r11, 3
-	jb	.LBB1_3
-.LBB1_737:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rdi, -1
+	jne	.LBB1_646
+.LBB1_647:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_648:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	add	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB1_737
-	jmp	.LBB1_3
-.LBB1_194:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_314
-# %bb.195:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB1_196:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 48]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
-	add	rbx, 16
-	add	rdi, 2
-	jne	.LBB1_196
-	jmp	.LBB1_315
-.LBB1_197:
-	mov	ecx, eax
-	and	ecx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rcx - 4]
-	mov	rbx, rsi
-	shr	rbx, 2
-	add	rbx, 1
-	test	rsi, rsi
-	je	.LBB1_322
-# %bb.198:
-	mov	rsi, rbx
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_199:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB1_199
-	jmp	.LBB1_323
-.LBB1_200:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	xorpd	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_330
-# %bb.201:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB1_202:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rbx]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 48]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
-	add	rbx, 64
-	add	rdi, 2
-	jne	.LBB1_202
-	jmp	.LBB1_331
-.LBB1_203:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_338
-# %bb.204:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB1_205:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 48]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
-	add	rbx, 8
-	add	rdi, 2
-	jne	.LBB1_205
-	jmp	.LBB1_339
-.LBB1_206:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_346
-# %bb.207:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB1_208:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 48]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
-	add	rbx, 32
-	add	rdi, 2
-	jne	.LBB1_208
-	jmp	.LBB1_347
-.LBB1_209:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 16]
-	mov	r9, rcx
-	shr	r9, 4
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_354
-# %bb.210:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB1_211:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 48]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
-	add	rbx, 32
-	add	rdi, 2
-	jne	.LBB1_211
-	jmp	.LBB1_355
-.LBB1_212:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, rax
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rcx, [rsi - 4]
-	mov	r9, rcx
-	shr	r9, 2
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_362
-# %bb.213:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB1_214:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 48]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
-	add	rbx, 8
-	add	rdi, 2
-	jne	.LBB1_214
-	jmp	.LBB1_363
-.LBB1_215:
-	mov	ecx, eax
-	and	ecx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rcx - 8]
-	mov	rbx, rsi
-	shr	rbx, 3
-	add	rbx, 1
-	test	rsi, rsi
-	je	.LBB1_370
-# %bb.216:
-	mov	rsi, rbx
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB1_217:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB1_217
-	jmp	.LBB1_371
-.LBB1_218:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	ecx, al
-	movd	xmm0, ecx
-	xorpd	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rcx, [rsi - 32]
-	mov	r9, rcx
-	shr	r9, 5
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_378
-# %bb.219:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB1_220:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rbx]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 48]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
-	add	rbx, 64
-	add	rdi, 2
-	jne	.LBB1_220
-	jmp	.LBB1_379
-.LBB1_221:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, eax
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rcx, [rsi - 8]
-	mov	r9, rcx
-	shr	r9, 3
-	add	r9, 1
-	test	rcx, rcx
-	je	.LBB1_386
-# %bb.222:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB1_223:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 48]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
-	add	rbx, 16
-	add	rdi, 2
-	jne	.LBB1_223
-	jmp	.LBB1_387
-.LBB1_254:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r14d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_394
-# %bb.255:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_256:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB1_256
-	jmp	.LBB1_395
-.LBB1_257:
-	mov	esi, r11d
-	and	esi, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rax, [rsi - 4]
-	mov	r10, rax
-	shr	r10, 2
-	add	r10, 1
-	test	rax, rax
-	je	.LBB1_402
-# %bb.258:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_259:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdx + 8*rbx]
-	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rbx], xmm2
-	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
-	movupd	xmm2, xmmword ptr [rdx + 8*rbx + 32]
-	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 48]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rbx + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rbx + 48], xmm3
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB1_259
-	jmp	.LBB1_403
-.LBB1_260:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	eax, r14b
-	movd	xmm0, eax
-	xorpd	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_410
-# %bb.261:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_262:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rbx]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_262
-	jmp	.LBB1_411
-.LBB1_263:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r14
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_418
+	jne	.LBB1_648
+	jmp	.LBB1_737
+.LBB1_144:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.145:
+	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB1_146
 # %bb.264:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_265:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB1_265
-	jmp	.LBB1_419
-.LBB1_266:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, r14d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_426
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_384
+# %bb.265:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_384
+.LBB1_146:
+	xor	ecx, ecx
+.LBB1_653:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_655
+.LBB1_654:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_654
+.LBB1_655:
+	cmp	rsi, 3
+	jb	.LBB1_737
+.LBB1_656:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 4], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 8], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_656
+	jmp	.LBB1_737
+.LBB1_147:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.148:
+	mov	rax, qword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB1_149
 # %bb.267:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_268:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB1_268
-	jmp	.LBB1_427
-.LBB1_269:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, r14d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_434
-# %bb.270:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_271:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB1_271
-	jmp	.LBB1_435
-.LBB1_272:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r14
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_442
+	lea	rcx, [rdx + 8*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_387
+# %bb.268:
+	lea	rcx, [r8 + 8*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_387
+.LBB1_149:
+	xor	esi, esi
+.LBB1_661:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_663
+.LBB1_662:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_662
+.LBB1_663:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_664:                              # =>This Inner Loop Header: Depth=1
+	mov	rcx, qword ptr [rdx + 8*rsi]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 8]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 16]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rcx
+	mov	rcx, qword ptr [rdx + 8*rsi + 24]
+	sub	rcx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rcx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_664
+	jmp	.LBB1_737
+.LBB1_150:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.151:
+	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB1_152
+# %bb.270:
+	lea	rcx, [rdx + 4*rax]
+	cmp	rcx, r8
+	jbe	.LBB1_390
+# %bb.271:
+	lea	rcx, [r8 + 4*rax]
+	cmp	rcx, rdx
+	jbe	.LBB1_390
+.LBB1_152:
+	xor	ecx, ecx
+.LBB1_669:
+	mov	rsi, rcx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB1_671
+.LBB1_670:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	add	rcx, 1
+	add	rdi, -1
+	jne	.LBB1_670
+.LBB1_671:
+	cmp	rsi, 3
+	jb	.LBB1_737
+.LBB1_672:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 4], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 8], xmm1
+	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
+	subss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rcx + 12], xmm1
+	add	rcx, 4
+	cmp	rax, rcx
+	jne	.LBB1_672
+	jmp	.LBB1_737
+.LBB1_153:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.154:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_155
 # %bb.273:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_274:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB1_274
-	jmp	.LBB1_443
-.LBB1_275:
-	mov	esi, r11d
-	and	esi, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rax, [rsi - 8]
-	mov	r10, rax
-	shr	r10, 3
-	add	r10, 1
-	test	rax, rax
-	je	.LBB1_450
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_393
+# %bb.274:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_393
+.LBB1_155:
+	xor	esi, esi
+.LBB1_677:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_679
+.LBB1_678:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_678
+.LBB1_679:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_680:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_680
+	jmp	.LBB1_737
+.LBB1_156:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.157:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_158
 # %bb.276:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_277:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rdx + 4*rbx]
-	movups	xmm3, xmmword ptr [rdx + 4*rbx + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rbx], xmm2
-	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
-	movups	xmm2, xmmword ptr [rdx + 4*rbx + 32]
-	movups	xmm3, xmmword ptr [rdx + 4*rbx + 48]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rbx + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rbx + 48], xmm3
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB1_277
-	jmp	.LBB1_451
-.LBB1_278:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	eax, r14b
-	movd	xmm0, eax
-	xorpd	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_458
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_396
+# %bb.277:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_396
+.LBB1_158:
+	xor	esi, esi
+.LBB1_685:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_687
+.LBB1_686:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_686
+.LBB1_687:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_688:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_688
+	jmp	.LBB1_737
+.LBB1_159:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.160:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_161
 # %bb.279:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_280:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rbx]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_280
-	jmp	.LBB1_459
-.LBB1_281:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r14d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_466
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_399
+# %bb.280:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_399
+.LBB1_161:
+	xor	esi, esi
+.LBB1_693:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_695
+.LBB1_694:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_694
+.LBB1_695:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_696:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	add	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	add	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_696
+	jmp	.LBB1_737
+.LBB1_162:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.163:
+	mov	al, byte ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB1_164
 # %bb.282:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_283:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB1_283
-	jmp	.LBB1_467
-.LBB1_284:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r14d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_658
+	lea	rcx, [rdx + r10]
+	cmp	rcx, r8
+	jbe	.LBB1_402
+# %bb.283:
+	lea	rcx, [r8 + r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_402
+.LBB1_164:
+	xor	esi, esi
+.LBB1_701:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_703
+.LBB1_702:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_702
+.LBB1_703:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_704:                              # =>This Inner Loop Header: Depth=1
+	movzx	ecx, byte ptr [rdx + rsi]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi], cl
+	movzx	ecx, byte ptr [rdx + rsi + 1]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 1], cl
+	movzx	ecx, byte ptr [rdx + rsi + 2]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 2], cl
+	movzx	ecx, byte ptr [rdx + rsi + 3]
+	sub	cl, al
+	mov	byte ptr [r8 + rsi + 3], cl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_704
+	jmp	.LBB1_737
+.LBB1_165:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.166:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_167
 # %bb.285:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_286:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB1_286
-	jmp	.LBB1_659
-.LBB1_287:
-	mov	esi, r11d
-	and	esi, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rax, [rsi - 4]
-	mov	r10, rax
-	shr	r10, 2
-	add	r10, 1
-	test	rax, rax
-	je	.LBB1_666
-# %bb.288:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_289:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdx + 8*rbx]
-	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rbx], xmm2
-	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
-	movupd	xmm2, xmmword ptr [rdx + 8*rbx + 32]
-	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 48]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rbx + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rbx + 48], xmm3
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB1_289
-	jmp	.LBB1_667
-.LBB1_290:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	eax, r14b
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_674
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_405
+# %bb.286:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_405
+.LBB1_167:
+	xor	esi, esi
+.LBB1_709:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_711
+.LBB1_710:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_710
+.LBB1_711:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_712:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_712
+	jmp	.LBB1_737
+.LBB1_168:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.169:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_170
+# %bb.288:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_408
+# %bb.289:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_408
+.LBB1_170:
+	xor	esi, esi
+.LBB1_717:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_719
+.LBB1_718:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_718
+.LBB1_719:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_720:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_720
+	jmp	.LBB1_737
+.LBB1_171:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.172:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_173
 # %bb.291:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_292:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rbx]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_292
-	jmp	.LBB1_675
-.LBB1_293:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r14
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_682
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_411
+# %bb.292:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_411
+.LBB1_173:
+	xor	esi, esi
+.LBB1_725:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_727
+.LBB1_726:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_726
+.LBB1_727:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_728:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	add	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_728
+	jmp	.LBB1_737
+.LBB1_174:
+	test	r9d, r9d
+	jle	.LBB1_737
+# %bb.175:
+	mov	eax, dword ptr [rcx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB1_176
 # %bb.294:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_295:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB1_295
-	jmp	.LBB1_683
-.LBB1_296:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, r14d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_690
-# %bb.297:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_298:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB1_298
-	jmp	.LBB1_691
-.LBB1_299:
+	lea	rcx, [rdx + 4*r10]
+	cmp	rcx, r8
+	jbe	.LBB1_414
+# %bb.295:
+	lea	rcx, [r8 + 4*r10]
+	cmp	rcx, rdx
+	jbe	.LBB1_414
+.LBB1_176:
+	xor	esi, esi
+.LBB1_733:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB1_735
+.LBB1_734:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB1_734
+.LBB1_735:
+	cmp	r9, 3
+	jb	.LBB1_737
+.LBB1_736:                              # =>This Inner Loop Header: Depth=1
+	mov	ecx, dword ptr [rdx + 4*rsi]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 4]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 8]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], ecx
+	mov	ecx, dword ptr [rdx + 4*rsi + 12]
+	sub	ecx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], ecx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB1_736
+	jmp	.LBB1_737
+.LBB1_297:
 	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, r14d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	and	esi, -8
+	movd	xmm0, eax
 	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_698
-# %bb.300:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_301:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB1_301
-	jmp	.LBB1_699
-.LBB1_302:
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_417
+# %bb.298:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_299:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_299
+	jmp	.LBB1_418
+.LBB1_300:
 	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r14
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_706
-# %bb.303:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_304:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB1_304
-	jmp	.LBB1_707
-.LBB1_305:
-	mov	esi, r11d
 	and	esi, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rax, [rsi - 8]
-	mov	r10, rax
-	shr	r10, 3
-	add	r10, 1
-	test	rax, rax
-	je	.LBB1_714
-# %bb.306:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_307:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rdx + 4*rbx]
-	movups	xmm3, xmmword ptr [rdx + 4*rbx + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rbx], xmm2
-	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
-	movups	xmm2, xmmword ptr [rdx + 4*rbx + 32]
-	movups	xmm3, xmmword ptr [rdx + 4*rbx + 48]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rbx + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rbx + 48], xmm3
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB1_307
-	jmp	.LBB1_715
-.LBB1_308:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	eax, r14b
 	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_722
-# %bb.309:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_310:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rbx]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_310
-	jmp	.LBB1_723
-.LBB1_311:
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_425
+# %bb.301:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_302:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_302
+	jmp	.LBB1_426
+.LBB1_303:
 	mov	esi, r10d
 	and	esi, -8
-	movd	xmm0, r14d
+	movd	xmm0, eax
 	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_730
-# %bb.312:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_313:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_433
+# %bb.304:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_305:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
 	paddd	xmm1, xmm0
 	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 48]
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
 	paddd	xmm1, xmm0
 	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB1_313
-	jmp	.LBB1_731
-.LBB1_314:
-	xor	ebx, ebx
-.LBB1_315:
-	test	r9b, 1
-	je	.LBB1_317
-# %bb.316:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-.LBB1_317:
-	cmp	rsi, r10
-	je	.LBB1_517
-	jmp	.LBB1_318
-.LBB1_322:
-	xor	edi, edi
-.LBB1_323:
-	test	bl, 1
-	je	.LBB1_325
-# %bb.324:
-	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_305
+	jmp	.LBB1_434
+.LBB1_306:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_441
+# %bb.307:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_308:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_308
+	jmp	.LBB1_442
+.LBB1_309:
+	mov	ecx, eax
+	and	ecx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rcx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_449
+# %bb.310:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_311:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
 	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
-.LBB1_325:
-	cmp	rcx, rax
-	je	.LBB1_517
-	jmp	.LBB1_326
-.LBB1_330:
-	xor	ebx, ebx
-.LBB1_331:
-	test	r9b, 1
-	je	.LBB1_333
-# %bb.332:
-	movdqu	xmm1, xmmword ptr [rdx + rbx]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB1_311
+	jmp	.LBB1_450
+.LBB1_312:
+	mov	ecx, eax
+	and	ecx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rcx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_457
+# %bb.313:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_314:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB1_314
+	jmp	.LBB1_458
+.LBB1_315:
+	mov	ecx, eax
+	and	ecx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rcx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_465
+# %bb.316:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_317:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB1_317
+	jmp	.LBB1_466
+.LBB1_318:
+	mov	ecx, eax
+	and	ecx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rcx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_473
+# %bb.319:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_320:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB1_320
+	jmp	.LBB1_474
+.LBB1_321:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_481
+# %bb.322:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_323:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_323
+	jmp	.LBB1_482
+.LBB1_324:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_489
+# %bb.325:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_326:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
 	psubb	xmm1, xmm0
 	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-.LBB1_333:
-	cmp	rsi, r10
-	je	.LBB1_517
-	jmp	.LBB1_334
-.LBB1_338:
-	xor	ebx, ebx
-.LBB1_339:
-	test	r9b, 1
-	je	.LBB1_341
-# %bb.340:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-.LBB1_341:
-	cmp	rsi, r10
-	je	.LBB1_517
-	jmp	.LBB1_342
-.LBB1_346:
-	xor	ebx, ebx
-.LBB1_347:
-	test	r9b, 1
-	je	.LBB1_349
-# %bb.348:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-.LBB1_349:
-	cmp	rsi, r10
-	je	.LBB1_517
-	jmp	.LBB1_350
-.LBB1_354:
-	xor	ebx, ebx
-.LBB1_355:
-	test	r9b, 1
-	je	.LBB1_357
-# %bb.356:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-.LBB1_357:
-	cmp	rsi, r10
-	je	.LBB1_517
-	jmp	.LBB1_358
-.LBB1_362:
-	xor	ebx, ebx
-.LBB1_363:
-	test	r9b, 1
-	je	.LBB1_365
-# %bb.364:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-.LBB1_365:
-	cmp	rsi, r10
-	je	.LBB1_517
-	jmp	.LBB1_366
-.LBB1_370:
-	xor	edi, edi
-.LBB1_371:
-	test	bl, 1
-	je	.LBB1_373
-# %bb.372:
-	movups	xmm2, xmmword ptr [rdx + 4*rdi]
-	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
-.LBB1_373:
-	cmp	rcx, rax
-	je	.LBB1_517
-	jmp	.LBB1_374
-.LBB1_378:
-	xor	ebx, ebx
-.LBB1_379:
-	test	r9b, 1
-	je	.LBB1_381
-# %bb.380:
-	movdqu	xmm1, xmmword ptr [rdx + rbx]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
 	psubb	xmm1, xmm0
 	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-.LBB1_381:
-	cmp	rsi, r10
-	je	.LBB1_517
-	jmp	.LBB1_382
-.LBB1_386:
-	xor	ebx, ebx
-.LBB1_387:
-	test	r9b, 1
-	je	.LBB1_389
-# %bb.388:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-.LBB1_389:
-	cmp	rsi, r10
-	je	.LBB1_517
-	jmp	.LBB1_390
-.LBB1_394:
-	xor	ebx, ebx
-.LBB1_395:
-	test	r11b, 1
-	je	.LBB1_397
-# %bb.396:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-.LBB1_397:
-	cmp	rsi, r10
-	je	.LBB1_474
-	jmp	.LBB1_398
-.LBB1_402:
-	xor	ebx, ebx
-.LBB1_403:
-	test	r10b, 1
-	je	.LBB1_405
-# %bb.404:
-	movupd	xmm2, xmmword ptr [rdx + 8*rbx]
-	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rbx], xmm2
-	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
-.LBB1_405:
-	cmp	rsi, r11
-	je	.LBB1_474
-	jmp	.LBB1_406
-.LBB1_410:
-	xor	ebx, ebx
-.LBB1_411:
-	test	r11b, 1
-	je	.LBB1_413
-# %bb.412:
-	movdqu	xmm1, xmmword ptr [rdx + rbx]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_326
+	jmp	.LBB1_490
+.LBB1_327:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_497
+# %bb.328:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_329:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
 	paddb	xmm1, xmm0
 	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-.LBB1_413:
-	cmp	rsi, r10
-	je	.LBB1_474
-	jmp	.LBB1_414
-.LBB1_418:
-	xor	ebx, ebx
-.LBB1_419:
-	test	r11b, 1
-	je	.LBB1_421
-# %bb.420:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-.LBB1_421:
-	cmp	rsi, r10
-	je	.LBB1_474
-	jmp	.LBB1_422
-.LBB1_426:
-	xor	ebx, ebx
-.LBB1_427:
-	test	r11b, 1
-	je	.LBB1_429
-# %bb.428:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-.LBB1_429:
-	cmp	rsi, r10
-	je	.LBB1_474
-	jmp	.LBB1_430
-.LBB1_434:
-	xor	ebx, ebx
-.LBB1_435:
-	test	r11b, 1
-	je	.LBB1_437
-# %bb.436:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-.LBB1_437:
-	cmp	rsi, r10
-	je	.LBB1_474
-	jmp	.LBB1_438
-.LBB1_442:
-	xor	ebx, ebx
-.LBB1_443:
-	test	r11b, 1
-	je	.LBB1_445
-# %bb.444:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-.LBB1_445:
-	cmp	rsi, r10
-	je	.LBB1_474
-	jmp	.LBB1_446
-.LBB1_450:
-	xor	ebx, ebx
-.LBB1_451:
-	test	r10b, 1
-	je	.LBB1_453
-# %bb.452:
-	movups	xmm2, xmmword ptr [rdx + 4*rbx]
-	movups	xmm3, xmmword ptr [rdx + 4*rbx + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rbx], xmm2
-	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
-.LBB1_453:
-	cmp	rsi, r11
-	je	.LBB1_474
-	jmp	.LBB1_454
-.LBB1_458:
-	xor	ebx, ebx
-.LBB1_459:
-	test	r11b, 1
-	je	.LBB1_461
-# %bb.460:
-	movdqu	xmm1, xmmword ptr [rdx + rbx]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
 	paddb	xmm1, xmm0
 	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-.LBB1_461:
-	cmp	rsi, r10
-	je	.LBB1_474
-	jmp	.LBB1_462
-.LBB1_466:
-	xor	ebx, ebx
-.LBB1_467:
-	test	r11b, 1
-	je	.LBB1_469
-# %bb.468:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-.LBB1_469:
-	cmp	rsi, r10
-	jne	.LBB1_470
-.LBB1_474:
-	cmp	edi, 6
-	jg	.LBB1_482
-# %bb.475:
-	cmp	edi, 3
-	jle	.LBB1_489
-# %bb.476:
-	cmp	edi, 4
-	je	.LBB1_499
-# %bb.477:
-	cmp	edi, 5
-	je	.LBB1_502
-# %bb.478:
-	cmp	edi, 6
-	jne	.LBB1_13
-# %bb.479:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.480:
-	mov	r14d, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_481
-# %bb.518:
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB1_548
-# %bb.519:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_548
-.LBB1_481:
-	xor	esi, esi
-.LBB1_582:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_584
-	.p2align	4, 0x90
-.LBB1_583:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_583
-.LBB1_584:
-	cmp	r11, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_585:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_585
-	jmp	.LBB1_13
-.LBB1_482:
-	cmp	edi, 8
-	jle	.LBB1_494
-# %bb.483:
-	cmp	edi, 9
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_329
+	jmp	.LBB1_498
+.LBB1_330:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
 	je	.LBB1_505
-# %bb.484:
-	cmp	edi, 11
-	je	.LBB1_508
-# %bb.485:
-	cmp	edi, 12
-	jne	.LBB1_13
-# %bb.486:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.487:
-	movsd	xmm0, qword ptr [rcx]           # xmm0 = mem[0],zero
-	mov	r11d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_488
-# %bb.521:
-	lea	rax, [rdx + 8*r11]
-	cmp	rax, r8
-	jbe	.LBB1_551
-# %bb.522:
-	lea	rax, [r8 + 8*r11]
-	cmp	rax, rdx
-	jbe	.LBB1_551
-.LBB1_488:
-	xor	esi, esi
-.LBB1_590:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB1_592
-	.p2align	4, 0x90
-.LBB1_591:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_591
-.LBB1_592:
-	cmp	rax, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_593:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rdx + 8*rsi]   # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 8] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 16] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	movsd	xmm1, qword ptr [rdx + 8*rsi + 24] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB1_593
-	jmp	.LBB1_13
-.LBB1_489:
-	cmp	edi, 2
-	je	.LBB1_511
-# %bb.490:
-	cmp	edi, 3
-	jne	.LBB1_13
-# %bb.491:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.492:
-	mov	r14b, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_493
-# %bb.524:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_554
-# %bb.525:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_554
-.LBB1_493:
-	xor	esi, esi
-.LBB1_598:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_600
-	.p2align	4, 0x90
-.LBB1_599:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_599
-.LBB1_600:
-	cmp	r11, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_601:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_601
-	jmp	.LBB1_13
-.LBB1_494:
-	cmp	edi, 7
-	je	.LBB1_514
-# %bb.495:
-	cmp	edi, 8
-	jne	.LBB1_13
-# %bb.496:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.497:
-	mov	r14, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_498
-# %bb.527:
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB1_557
-# %bb.528:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_557
-.LBB1_498:
-	xor	esi, esi
-.LBB1_606:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_608
-	.p2align	4, 0x90
-.LBB1_607:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_607
-.LBB1_608:
-	cmp	r11, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_609:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_609
-	jmp	.LBB1_13
-.LBB1_499:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.500:
-	movzx	r14d, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_501
-# %bb.530:
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB1_560
-# %bb.531:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_560
-.LBB1_501:
-	xor	esi, esi
-.LBB1_614:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_616
-	.p2align	4, 0x90
-.LBB1_615:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_615
-.LBB1_616:
-	cmp	r11, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_617:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_617
-	jmp	.LBB1_13
-.LBB1_502:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.503:
-	movzx	r14d, word ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB1_504
-# %bb.533:
-	lea	rax, [rdx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB1_563
-# %bb.534:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_563
-.LBB1_504:
-	xor	esi, esi
-.LBB1_622:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_624
-	.p2align	4, 0x90
-.LBB1_623:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_623
-.LBB1_624:
-	cmp	r11, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_625:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	eax, r14d
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_625
-	jmp	.LBB1_13
-.LBB1_505:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.506:
-	mov	r14, qword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB1_507
-# %bb.536:
-	lea	rax, [rdx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB1_566
-# %bb.537:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_566
-.LBB1_507:
-	xor	esi, esi
-.LBB1_630:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_632
-	.p2align	4, 0x90
-.LBB1_631:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_631
-.LBB1_632:
-	cmp	r11, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_633:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_633
-	jmp	.LBB1_13
-.LBB1_508:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.509:
-	movss	xmm0, dword ptr [rcx]           # xmm0 = mem[0],zero,zero,zero
-	mov	r11d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_510
-# %bb.539:
-	lea	rax, [rdx + 4*r11]
-	cmp	rax, r8
-	jbe	.LBB1_569
-# %bb.540:
-	lea	rax, [r8 + 4*r11]
-	cmp	rax, rdx
-	jbe	.LBB1_569
-.LBB1_510:
-	xor	esi, esi
-.LBB1_638:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB1_640
-	.p2align	4, 0x90
-.LBB1_639:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_639
-.LBB1_640:
-	cmp	rax, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_641:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rdx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi + 4], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi + 8], xmm1
-	movss	xmm1, dword ptr [rdx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB1_641
-	jmp	.LBB1_13
-.LBB1_511:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.512:
-	mov	r14b, byte ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB1_513
-# %bb.542:
-	lea	rax, [rdx + r10]
-	cmp	rax, r8
-	jbe	.LBB1_572
-# %bb.543:
-	lea	rax, [r8 + r10]
-	cmp	rax, rdx
-	jbe	.LBB1_572
-.LBB1_513:
-	xor	esi, esi
-.LBB1_646:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_648
-	.p2align	4, 0x90
-.LBB1_647:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_647
-.LBB1_648:
-	cmp	r11, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_649:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_649
-	jmp	.LBB1_13
-.LBB1_514:
-	test	r9d, r9d
-	jle	.LBB1_517
-# %bb.515:
-	mov	r14d, dword ptr [rcx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB1_516
-# %bb.545:
-	lea	rax, [rdx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB1_575
-# %bb.546:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rdx
-	jbe	.LBB1_575
-.LBB1_516:
-	xor	esi, esi
-.LBB1_654:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB1_656
-	.p2align	4, 0x90
-.LBB1_655:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB1_655
-.LBB1_656:
-	cmp	r11, 3
-	jb	.LBB1_13
-	.p2align	4, 0x90
-.LBB1_657:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB1_657
-	jmp	.LBB1_13
-.LBB1_517:
-	lea	rsp, [rbp - 16]
-	pop	rbx
-	pop	r14
-	pop	rbp
-	ret
-.LBB1_548:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r14d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_578
-# %bb.549:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_550:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 48]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB1_550
-	jmp	.LBB1_579
-.LBB1_551:
-	mov	esi, r11d
-	and	esi, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rax, [rsi - 4]
-	mov	r10, rax
-	shr	r10, 2
-	add	r10, 1
-	test	rax, rax
-	je	.LBB1_586
-# %bb.552:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_553:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rdx + 8*rbx]
-	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 16]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rbx], xmm2
-	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
-	movupd	xmm2, xmmword ptr [rdx + 8*rbx + 32]
-	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 48]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rbx + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rbx + 48], xmm3
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB1_553
-	jmp	.LBB1_587
-.LBB1_554:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	eax, r14b
-	movd	xmm0, eax
-	xorpd	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_594
-# %bb.555:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_556:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rbx]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
+# %bb.331:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_332:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
 	psubb	xmm1, xmm0
 	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 48]
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
 	psubb	xmm1, xmm0
 	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_556
-	jmp	.LBB1_595
-.LBB1_557:
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_332
+	jmp	.LBB1_506
+.LBB1_333:
 	mov	esi, r10d
 	and	esi, -4
-	movq	xmm0, r14
+	movq	xmm0, rax
 	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_602
-# %bb.558:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_559:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_513
+# %bb.334:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_335:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rcx, 2
+	jne	.LBB1_335
+	jmp	.LBB1_514
+.LBB1_336:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_521
+# %bb.337:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_338:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
 	psubq	xmm1, xmm0
 	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 48]
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
 	psubq	xmm1, xmm0
 	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB1_559
-	jmp	.LBB1_603
-.LBB1_560:
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rcx, 2
+	jne	.LBB1_338
+	jmp	.LBB1_522
+.LBB1_339:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_529
+# %bb.340:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_341:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rcx, 2
+	jne	.LBB1_341
+	jmp	.LBB1_530
+.LBB1_342:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_537
+# %bb.343:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_344:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rcx, 2
+	jne	.LBB1_344
+	jmp	.LBB1_538
+.LBB1_345:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_545
+# %bb.346:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_347:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_347
+	jmp	.LBB1_546
+.LBB1_348:
 	mov	esi, r10d
 	and	esi, -16
-	movd	xmm0, r14d
+	movd	xmm0, eax
 	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
 	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_610
-# %bb.561:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_562:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_553
+# %bb.349:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_350:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_350
+	jmp	.LBB1_554
+.LBB1_351:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_561
+# %bb.352:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_353:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
 	psubw	xmm1, xmm0
 	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 48]
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
 	psubw	xmm1, xmm0
 	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB1_562
-	jmp	.LBB1_611
-.LBB1_563:
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_353
+	jmp	.LBB1_562
+.LBB1_354:
 	mov	esi, r10d
 	and	esi, -16
-	movd	xmm0, r14d
+	movd	xmm0, eax
 	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
 	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_618
-# %bb.564:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_565:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_569
+# %bb.355:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_356:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
 	psubw	xmm1, xmm0
 	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 48]
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
 	psubw	xmm1, xmm0
 	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB1_565
-	jmp	.LBB1_619
-.LBB1_566:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r14
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_626
-# %bb.567:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_568:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 48]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB1_568
-	jmp	.LBB1_627
-.LBB1_569:
-	mov	esi, r11d
-	and	esi, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rax, [rsi - 8]
-	mov	r10, rax
-	shr	r10, 3
-	add	r10, 1
-	test	rax, rax
-	je	.LBB1_634
-# %bb.570:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_571:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rdx + 4*rbx]
-	movups	xmm3, xmmword ptr [rdx + 4*rbx + 16]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rbx], xmm2
-	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
-	movups	xmm2, xmmword ptr [rdx + 4*rbx + 32]
-	movups	xmm3, xmmword ptr [rdx + 4*rbx + 48]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rbx + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rbx + 48], xmm3
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB1_571
-	jmp	.LBB1_635
-.LBB1_572:
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_356
+	jmp	.LBB1_570
+.LBB1_357:
 	mov	esi, r10d
-	and	esi, -32
-	movzx	eax, r14b
+	and	esi, -16
 	movd	xmm0, eax
-	xorpd	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_642
-# %bb.573:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_574:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + rbx]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 48]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB1_574
-	jmp	.LBB1_643
-.LBB1_575:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r14d
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
 	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
-	test	rax, rax
-	je	.LBB1_650
-# %bb.576:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB1_577:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 48]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB1_577
-	jmp	.LBB1_651
-.LBB1_578:
-	xor	ebx, ebx
-.LBB1_579:
-	test	r11b, 1
-	je	.LBB1_581
-# %bb.580:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-.LBB1_581:
-	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_582
-.LBB1_586:
-	xor	ebx, ebx
-.LBB1_587:
-	test	r10b, 1
-	je	.LBB1_589
-# %bb.588:
-	movupd	xmm2, xmmword ptr [rdx + 8*rbx]
-	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 16]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rbx], xmm2
-	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
-.LBB1_589:
-	cmp	rsi, r11
-	je	.LBB1_13
-	jmp	.LBB1_590
-.LBB1_594:
-	xor	ebx, ebx
-.LBB1_595:
-	test	r11b, 1
-	je	.LBB1_597
-# %bb.596:
-	movdqu	xmm1, xmmword ptr [rdx + rbx]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-.LBB1_597:
-	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_598
-.LBB1_602:
-	xor	ebx, ebx
-.LBB1_603:
-	test	r11b, 1
-	je	.LBB1_605
-# %bb.604:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-.LBB1_605:
-	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_606
-.LBB1_610:
-	xor	ebx, ebx
-.LBB1_611:
-	test	r11b, 1
-	je	.LBB1_613
-# %bb.612:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_577
+# %bb.358:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_359:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_359
+	jmp	.LBB1_578
+.LBB1_360:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_585
+# %bb.361:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_362:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_362
+	jmp	.LBB1_586
+.LBB1_363:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_593
+# %bb.364:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_365:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
 	psubw	xmm1, xmm0
 	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-.LBB1_613:
-	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_614
-.LBB1_618:
-	xor	ebx, ebx
-.LBB1_619:
-	test	r11b, 1
-	je	.LBB1_621
-# %bb.620:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
 	psubw	xmm1, xmm0
 	psubw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-.LBB1_621:
-	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_622
-.LBB1_626:
-	xor	ebx, ebx
-.LBB1_627:
-	test	r11b, 1
-	je	.LBB1_629
-# %bb.628:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_365
+	jmp	.LBB1_594
+.LBB1_366:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 16]
+	mov	r9, rcx
+	shr	r9, 4
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_601
+# %bb.367:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_368:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rcx, 2
+	jne	.LBB1_368
+	jmp	.LBB1_602
+.LBB1_369:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_609
+# %bb.370:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_371:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rcx, 2
+	jne	.LBB1_371
+	jmp	.LBB1_610
+.LBB1_372:
+	mov	ecx, eax
+	and	ecx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rcx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_617
+# %bb.373:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_374:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB1_374
+	jmp	.LBB1_618
+.LBB1_375:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_625
+# %bb.376:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_377:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
 	psubq	xmm1, xmm0
 	psubq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-.LBB1_629:
-	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_630
-.LBB1_634:
-	xor	ebx, ebx
-.LBB1_635:
-	test	r10b, 1
-	je	.LBB1_637
-# %bb.636:
-	movups	xmm2, xmmword ptr [rdx + 4*rbx]
-	movups	xmm3, xmmword ptr [rdx + 4*rbx + 16]
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rcx, 2
+	jne	.LBB1_377
+	jmp	.LBB1_626
+.LBB1_378:
+	mov	ecx, eax
+	and	ecx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rcx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_633
+# %bb.379:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_380:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
 	subps	xmm2, xmm1
 	subps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rbx], xmm2
-	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
-.LBB1_637:
-	cmp	rsi, r11
-	je	.LBB1_13
-	jmp	.LBB1_638
-.LBB1_642:
-	xor	ebx, ebx
-.LBB1_643:
-	test	r11b, 1
-	je	.LBB1_645
-# %bb.644:
-	movdqu	xmm1, xmmword ptr [rdx + rbx]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-.LBB1_645:
-	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_646
-.LBB1_650:
-	xor	ebx, ebx
-.LBB1_651:
-	test	r11b, 1
-	je	.LBB1_653
-# %bb.652:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-.LBB1_653:
-	cmp	rsi, r10
-	je	.LBB1_13
-	jmp	.LBB1_654
-.LBB1_658:
-	xor	ebx, ebx
-.LBB1_659:
-	test	r11b, 1
-	je	.LBB1_661
-# %bb.660:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-.LBB1_661:
-	cmp	rsi, r10
-	je	.LBB1_3
-	jmp	.LBB1_662
-.LBB1_666:
-	xor	ebx, ebx
-.LBB1_667:
-	test	r10b, 1
-	je	.LBB1_669
-# %bb.668:
-	movupd	xmm2, xmmword ptr [rdx + 8*rbx]
-	movupd	xmm3, xmmword ptr [rdx + 8*rbx + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rbx], xmm2
-	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
-.LBB1_669:
-	cmp	rsi, r11
-	je	.LBB1_3
-	jmp	.LBB1_670
-.LBB1_674:
-	xor	ebx, ebx
-.LBB1_675:
-	test	r11b, 1
-	je	.LBB1_677
-# %bb.676:
-	movdqu	xmm1, xmmword ptr [rdx + rbx]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-.LBB1_677:
-	cmp	rsi, r10
-	je	.LBB1_3
-	jmp	.LBB1_678
-.LBB1_682:
-	xor	ebx, ebx
-.LBB1_683:
-	test	r11b, 1
-	je	.LBB1_685
-# %bb.684:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB1_380
+	jmp	.LBB1_634
+.LBB1_381:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_641
+# %bb.382:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_383:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
 	paddq	xmm1, xmm0
 	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-.LBB1_685:
-	cmp	rsi, r10
-	je	.LBB1_3
-	jmp	.LBB1_686
-.LBB1_690:
-	xor	ebx, ebx
-.LBB1_691:
-	test	r11b, 1
-	je	.LBB1_693
-# %bb.692:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-.LBB1_693:
-	cmp	rsi, r10
-	je	.LBB1_3
-	jmp	.LBB1_694
-.LBB1_698:
-	xor	ebx, ebx
-.LBB1_699:
-	test	r11b, 1
-	je	.LBB1_701
-# %bb.700:
-	movdqu	xmm1, xmmword ptr [rdx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 2*rbx + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-.LBB1_701:
-	cmp	rsi, r10
-	je	.LBB1_3
-	jmp	.LBB1_702
-.LBB1_706:
-	xor	ebx, ebx
-.LBB1_707:
-	test	r11b, 1
-	je	.LBB1_709
-# %bb.708:
-	movdqu	xmm1, xmmword ptr [rdx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 8*rbx + 16]
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
 	paddq	xmm1, xmm0
 	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-.LBB1_709:
-	cmp	rsi, r10
-	je	.LBB1_3
-	jmp	.LBB1_710
-.LBB1_714:
-	xor	ebx, ebx
-.LBB1_715:
-	test	r10b, 1
-	je	.LBB1_717
-# %bb.716:
-	movups	xmm2, xmmword ptr [rdx + 4*rbx]
-	movups	xmm3, xmmword ptr [rdx + 4*rbx + 16]
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rcx, 2
+	jne	.LBB1_383
+	jmp	.LBB1_642
+.LBB1_384:
+	mov	ecx, eax
+	and	ecx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rcx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_649
+# %bb.385:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_386:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
 	addps	xmm2, xmm1
 	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rbx], xmm2
-	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
-.LBB1_717:
-	cmp	rsi, r11
-	je	.LBB1_3
-	jmp	.LBB1_718
-.LBB1_722:
-	xor	ebx, ebx
-.LBB1_723:
-	test	r11b, 1
-	je	.LBB1_725
-# %bb.724:
-	movdqu	xmm1, xmmword ptr [rdx + rbx]
-	movdqu	xmm2, xmmword ptr [rdx + rbx + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-.LBB1_725:
-	cmp	rsi, r10
-	je	.LBB1_3
-	jmp	.LBB1_726
-.LBB1_730:
-	xor	ebx, ebx
-.LBB1_731:
-	test	r11b, 1
-	je	.LBB1_733
-# %bb.732:
-	movdqu	xmm1, xmmword ptr [rdx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rdx + 4*rbx + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-.LBB1_733:
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB1_386
+	jmp	.LBB1_650
+.LBB1_387:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rcx, [rsi - 4]
+	mov	r9, rcx
+	shr	r9, 2
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_657
+# %bb.388:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_389:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rcx, 2
+	jne	.LBB1_389
+	jmp	.LBB1_658
+.LBB1_390:
+	mov	ecx, eax
+	and	ecx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rcx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB1_665
+# %bb.391:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB1_392:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB1_392
+	jmp	.LBB1_666
+.LBB1_393:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_673
+# %bb.394:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_395:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_395
+	jmp	.LBB1_674
+.LBB1_396:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_681
+# %bb.397:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_398:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_398
+	jmp	.LBB1_682
+.LBB1_399:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_689
+# %bb.400:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_401:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_401
+	jmp	.LBB1_690
+.LBB1_402:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	ecx, al
+	movd	xmm0, ecx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rcx, [rsi - 32]
+	mov	r9, rcx
+	shr	r9, 5
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_697
+# %bb.403:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_404:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rcx, 2
+	jne	.LBB1_404
+	jmp	.LBB1_698
+.LBB1_405:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_705
+# %bb.406:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_407:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_407
+	jmp	.LBB1_706
+.LBB1_408:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_713
+# %bb.409:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_410:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_410
+	jmp	.LBB1_714
+.LBB1_411:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_721
+# %bb.412:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_413:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_413
+	jmp	.LBB1_722
+.LBB1_414:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rcx, [rsi - 8]
+	mov	r9, rcx
+	shr	r9, 3
+	add	r9, 1
+	test	rcx, rcx
+	je	.LBB1_729
+# %bb.415:
+	mov	rcx, r9
+	and	rcx, -2
+	neg	rcx
+	xor	edi, edi
+.LBB1_416:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rcx, 2
+	jne	.LBB1_416
+	jmp	.LBB1_730
+.LBB1_417:
+	xor	edi, edi
+.LBB1_418:
+	test	r9b, 1
+	je	.LBB1_420
+# %bb.419:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_420:
 	cmp	rsi, r10
-	je	.LBB1_3
-	jmp	.LBB1_734
-.Lfunc_end1:
-	.size	arithmetic_arr_scalar_sse4, .Lfunc_end1-arithmetic_arr_scalar_sse4
-                                        # -- End function
-	.globl	arithmetic_scalar_arr_sse4      # -- Begin function arithmetic_scalar_arr_sse4
-	.p2align	4, 0x90
-	.type	arithmetic_scalar_arr_sse4,@function
-arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
-# %bb.0:
-	push	rbp
-	mov	rbp, rsp
-	push	r14
-	push	rbx
-	and	rsp, -8
-	cmp	sil, 1
-	jg	.LBB2_11
-# %bb.1:
-	test	sil, sil
-	je	.LBB2_28
-# %bb.2:
-	cmp	sil, 1
-	jne	.LBB2_517
-.LBB2_3:
-	cmp	edi, 6
-	jg	.LBB2_36
-# %bb.4:
-	cmp	edi, 3
-	jle	.LBB2_60
-# %bb.5:
-	cmp	edi, 4
-	je	.LBB2_98
-# %bb.6:
-	cmp	edi, 5
-	je	.LBB2_101
-# %bb.7:
-	cmp	edi, 6
-	jne	.LBB2_474
-# %bb.8:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.9:
-	mov	r14d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_10
-# %bb.164:
-	lea	rax, [rcx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB2_254
-# %bb.165:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_254
-.LBB2_10:
-	xor	esi, esi
-.LBB2_398:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_400
-	.p2align	4, 0x90
-.LBB2_399:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_399
-.LBB2_400:
-	cmp	r11, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_401:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_401
-	jmp	.LBB2_474
-.LBB2_11:
-	cmp	sil, 2
-	je	.LBB2_474
-# %bb.12:
-	cmp	sil, 3
-	jne	.LBB2_517
-.LBB2_13:
-	cmp	edi, 6
-	jg	.LBB2_21
-# %bb.14:
-	cmp	edi, 3
-	jle	.LBB2_50
-# %bb.15:
-	cmp	edi, 4
-	je	.LBB2_70
-# %bb.16:
-	cmp	edi, 5
-	je	.LBB2_73
-# %bb.17:
-	cmp	edi, 6
-	jne	.LBB2_517
-# %bb.18:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.19:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_20
-# %bb.134:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_194
-# %bb.135:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_194
-.LBB2_20:
-	xor	esi, esi
-.LBB2_318:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_320
-	.p2align	4, 0x90
-.LBB2_319:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_319
-.LBB2_320:
-	cmp	rdi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_321:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_321
-	jmp	.LBB2_517
-.LBB2_21:
-	cmp	edi, 8
-	jle	.LBB2_55
-# %bb.22:
-	cmp	edi, 9
-	je	.LBB2_76
-# %bb.23:
-	cmp	edi, 11
-	je	.LBB2_79
-# %bb.24:
-	cmp	edi, 12
-	jne	.LBB2_517
-# %bb.25:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.26:
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	eax, r9d
-	cmp	r9d, 4
-	jb	.LBB2_27
-# %bb.137:
-	lea	rdx, [rcx + 8*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_197
-# %bb.138:
-	lea	rdx, [r8 + 8*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_197
-.LBB2_27:
-	xor	edx, edx
-.LBB2_326:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_328
-	.p2align	4, 0x90
-.LBB2_327:                              # =>This Inner Loop Header: Depth=1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx]
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_327
-.LBB2_328:
-	cmp	rsi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_329:                              # =>This Inner Loop Header: Depth=1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx]
-	movsd	qword ptr [r8 + 8*rdx], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 8]
-	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 16]
-	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 24]
-	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_329
-	jmp	.LBB2_517
-.LBB2_28:
-	cmp	edi, 6
-	jg	.LBB2_43
-# %bb.29:
-	cmp	edi, 3
-	jle	.LBB2_88
-# %bb.30:
-	cmp	edi, 4
-	je	.LBB2_116
-# %bb.31:
-	cmp	edi, 5
-	je	.LBB2_119
-# %bb.32:
-	cmp	edi, 6
-	jne	.LBB2_3
-# %bb.33:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.34:
-	mov	r14d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_35
-# %bb.224:
-	lea	rax, [rcx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB2_284
-# %bb.225:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_284
-.LBB2_35:
-	xor	esi, esi
-.LBB2_662:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_664
-.LBB2_663:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_663
-.LBB2_664:
-	cmp	r11, 3
-	jb	.LBB2_3
-.LBB2_665:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_665
-	jmp	.LBB2_3
-.LBB2_36:
-	cmp	edi, 8
-	jle	.LBB2_65
-# %bb.37:
-	cmp	edi, 9
-	je	.LBB2_104
-# %bb.38:
-	cmp	edi, 11
-	je	.LBB2_107
-# %bb.39:
-	cmp	edi, 12
-	jne	.LBB2_474
-# %bb.40:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.41:
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	r11d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_42
-# %bb.167:
-	lea	rax, [rcx + 8*r11]
-	cmp	rax, r8
-	jbe	.LBB2_257
-# %bb.168:
-	lea	rax, [r8 + 8*r11]
-	cmp	rax, rcx
-	jbe	.LBB2_257
-.LBB2_42:
-	xor	esi, esi
-.LBB2_406:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB2_408
-	.p2align	4, 0x90
-.LBB2_407:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rsi]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_407
-.LBB2_408:
-	cmp	rax, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_409:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rsi]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rsi + 8] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rsi + 16] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rsi + 24] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB2_409
-	jmp	.LBB2_474
-.LBB2_43:
-	cmp	edi, 8
-	jle	.LBB2_93
-# %bb.44:
-	cmp	edi, 9
-	je	.LBB2_122
-# %bb.45:
-	cmp	edi, 11
-	je	.LBB2_125
-# %bb.46:
-	cmp	edi, 12
-	jne	.LBB2_3
-# %bb.47:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.48:
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	r11d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_49
-# %bb.227:
-	lea	rax, [rcx + 8*r11]
-	cmp	rax, r8
-	jbe	.LBB2_287
-# %bb.228:
-	lea	rax, [r8 + 8*r11]
-	cmp	rax, rcx
-	jbe	.LBB2_287
-.LBB2_49:
-	xor	esi, esi
-.LBB2_670:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB2_672
-.LBB2_671:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rsi]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_671
-.LBB2_672:
-	cmp	rax, 3
-	jb	.LBB2_3
-.LBB2_673:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rsi]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rsi + 8] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rsi + 16] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rsi + 24] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB2_673
-	jmp	.LBB2_3
-.LBB2_50:
-	cmp	edi, 2
-	je	.LBB2_82
-# %bb.51:
-	cmp	edi, 3
-	jne	.LBB2_517
-# %bb.52:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.53:
-	mov	r11b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_54
-# %bb.140:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_200
-# %bb.141:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_200
-.LBB2_54:
-	xor	esi, esi
-.LBB2_334:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_336
-	.p2align	4, 0x90
-.LBB2_335:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_335
-.LBB2_336:
-	cmp	rdi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_337:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_337
-	jmp	.LBB2_517
-.LBB2_55:
-	cmp	edi, 7
-	je	.LBB2_85
-# %bb.56:
-	cmp	edi, 8
-	jne	.LBB2_517
-# %bb.57:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.58:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_59
-# %bb.143:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_203
-# %bb.144:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_203
-.LBB2_59:
-	xor	esi, esi
-.LBB2_342:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_344
-	.p2align	4, 0x90
-.LBB2_343:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_343
-.LBB2_344:
-	cmp	rdi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_345:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_345
-	jmp	.LBB2_517
-.LBB2_60:
-	cmp	edi, 2
-	je	.LBB2_110
-# %bb.61:
-	cmp	edi, 3
-	jne	.LBB2_474
-# %bb.62:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.63:
-	mov	r14b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_64
-# %bb.170:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_260
-# %bb.171:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_260
-.LBB2_64:
-	xor	esi, esi
-.LBB2_414:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_416
-	.p2align	4, 0x90
-.LBB2_415:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_415
-.LBB2_416:
-	cmp	r11, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_417:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_417
-	jmp	.LBB2_474
-.LBB2_65:
-	cmp	edi, 7
-	je	.LBB2_113
-# %bb.66:
-	cmp	edi, 8
-	jne	.LBB2_474
-# %bb.67:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.68:
-	mov	r14, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_69
-# %bb.173:
-	lea	rax, [rcx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB2_263
-# %bb.174:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_263
-.LBB2_69:
-	xor	esi, esi
-.LBB2_422:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_424
-	.p2align	4, 0x90
-.LBB2_423:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_423
-.LBB2_424:
-	cmp	r11, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_425:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_425
-	jmp	.LBB2_474
-.LBB2_70:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.71:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_72
-# %bb.146:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_206
-# %bb.147:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_206
-.LBB2_72:
-	xor	esi, esi
-.LBB2_350:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_352
-	.p2align	4, 0x90
-.LBB2_351:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, eax
-	sub	bx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], bx
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_351
-.LBB2_352:
-	cmp	rdi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_353:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_353
-	jmp	.LBB2_517
-.LBB2_73:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.74:
-	movzx	eax, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_75
-# %bb.149:
-	lea	rdx, [rcx + 2*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_209
-# %bb.150:
-	lea	rdx, [r8 + 2*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_209
-.LBB2_75:
-	xor	esi, esi
-.LBB2_358:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_360
-	.p2align	4, 0x90
-.LBB2_359:                              # =>This Inner Loop Header: Depth=1
-	mov	ebx, eax
-	sub	bx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], bx
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_359
-.LBB2_360:
-	cmp	rdi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_361:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], dx
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_361
-	jmp	.LBB2_517
-.LBB2_76:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.77:
-	mov	r11, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_78
-# %bb.152:
-	lea	rdx, [rcx + 8*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_212
-# %bb.153:
-	lea	rdx, [r8 + 8*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_212
-.LBB2_78:
-	xor	esi, esi
-.LBB2_366:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_368
-	.p2align	4, 0x90
-.LBB2_367:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_367
-.LBB2_368:
-	cmp	rdi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_369:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_369
-	jmp	.LBB2_517
-.LBB2_79:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.80:
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	eax, r9d
-	cmp	r9d, 8
-	jb	.LBB2_81
-# %bb.155:
-	lea	rdx, [rcx + 4*rax]
-	cmp	rdx, r8
-	jbe	.LBB2_215
-# %bb.156:
-	lea	rdx, [r8 + 4*rax]
-	cmp	rdx, rcx
-	jbe	.LBB2_215
-.LBB2_81:
-	xor	edx, edx
-.LBB2_374:
-	mov	rsi, rdx
-	not	rsi
-	add	rsi, rax
-	mov	rdi, rax
-	and	rdi, 3
-	je	.LBB2_376
-	.p2align	4, 0x90
-.LBB2_375:                              # =>This Inner Loop Header: Depth=1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx]
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	add	rdx, 1
-	add	rdi, -1
-	jne	.LBB2_375
-.LBB2_376:
-	cmp	rsi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_377:                              # =>This Inner Loop Header: Depth=1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx]
-	movss	dword ptr [r8 + 4*rdx], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 4]
-	movss	dword ptr [r8 + 4*rdx + 4], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 8]
-	movss	dword ptr [r8 + 4*rdx + 8], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 12]
-	movss	dword ptr [r8 + 4*rdx + 12], xmm1
-	add	rdx, 4
-	cmp	rax, rdx
-	jne	.LBB2_377
-	jmp	.LBB2_517
-.LBB2_82:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.83:
-	mov	r11b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_84
-# %bb.158:
-	lea	rdx, [rcx + r10]
-	cmp	rdx, r8
-	jbe	.LBB2_218
-# %bb.159:
-	lea	rdx, [r8 + r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_218
-.LBB2_84:
-	xor	esi, esi
-.LBB2_382:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_384
-	.p2align	4, 0x90
-.LBB2_383:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_383
-.LBB2_384:
-	cmp	rdi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_385:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_385
-	jmp	.LBB2_517
-.LBB2_85:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.86:
-	mov	r11d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_87
-# %bb.161:
-	lea	rdx, [rcx + 4*r10]
-	cmp	rdx, r8
-	jbe	.LBB2_221
-# %bb.162:
-	lea	rdx, [r8 + 4*r10]
-	cmp	rdx, rcx
-	jbe	.LBB2_221
-.LBB2_87:
-	xor	esi, esi
-.LBB2_390:
-	mov	rdi, rsi
-	not	rdi
-	add	rdi, r10
-	mov	rdx, r10
-	and	rdx, 3
-	je	.LBB2_392
-	.p2align	4, 0x90
-.LBB2_391:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rdx, -1
-	jne	.LBB2_391
-.LBB2_392:
-	cmp	rdi, 3
-	jb	.LBB2_517
-	.p2align	4, 0x90
-.LBB2_393:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_393
-	jmp	.LBB2_517
-.LBB2_88:
-	cmp	edi, 2
-	je	.LBB2_128
-# %bb.89:
-	cmp	edi, 3
-	jne	.LBB2_3
-# %bb.90:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.91:
-	mov	r14b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_92
-# %bb.230:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_290
-# %bb.231:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_290
-.LBB2_92:
-	xor	esi, esi
-.LBB2_678:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_680
-.LBB2_679:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_679
-.LBB2_680:
-	cmp	r11, 3
-	jb	.LBB2_3
-.LBB2_681:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_681
-	jmp	.LBB2_3
-.LBB2_93:
-	cmp	edi, 7
-	je	.LBB2_131
-# %bb.94:
-	cmp	edi, 8
-	jne	.LBB2_3
-# %bb.95:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.96:
-	mov	r14, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_97
-# %bb.233:
-	lea	rax, [rcx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB2_293
-# %bb.234:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_293
-.LBB2_97:
-	xor	esi, esi
-.LBB2_686:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_688
-.LBB2_687:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_687
-.LBB2_688:
-	cmp	r11, 3
-	jb	.LBB2_3
-.LBB2_689:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_689
-	jmp	.LBB2_3
-.LBB2_98:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.99:
-	movzx	r14d, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_100
-# %bb.176:
-	lea	rax, [rcx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB2_266
-# %bb.177:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_266
-.LBB2_100:
-	xor	esi, esi
-.LBB2_430:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_432
-	.p2align	4, 0x90
-.LBB2_431:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_431
-.LBB2_432:
-	cmp	r11, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_433:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_433
-	jmp	.LBB2_474
-.LBB2_101:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.102:
-	movzx	r14d, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_103
-# %bb.179:
-	lea	rax, [rcx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB2_269
-# %bb.180:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_269
-.LBB2_103:
-	xor	esi, esi
-.LBB2_438:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_440
-	.p2align	4, 0x90
-.LBB2_439:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_439
-.LBB2_440:
-	cmp	r11, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_441:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_441
-	jmp	.LBB2_474
-.LBB2_104:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.105:
-	mov	r14, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_106
-# %bb.182:
-	lea	rax, [rcx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB2_272
-# %bb.183:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_272
-.LBB2_106:
-	xor	esi, esi
-.LBB2_446:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_448
-	.p2align	4, 0x90
-.LBB2_447:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_447
-.LBB2_448:
-	cmp	r11, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_449:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_449
-	jmp	.LBB2_474
-.LBB2_107:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.108:
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	r11d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_109
-# %bb.185:
-	lea	rax, [rcx + 4*r11]
-	cmp	rax, r8
-	jbe	.LBB2_275
-# %bb.186:
-	lea	rax, [r8 + 4*r11]
-	cmp	rax, rcx
-	jbe	.LBB2_275
-.LBB2_109:
-	xor	esi, esi
-.LBB2_454:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB2_456
-	.p2align	4, 0x90
-.LBB2_455:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_455
-.LBB2_456:
-	cmp	rax, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_457:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi + 4], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi + 8], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB2_457
-	jmp	.LBB2_474
-.LBB2_110:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.111:
-	mov	r14b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_112
-# %bb.188:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_278
-# %bb.189:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_278
-.LBB2_112:
-	xor	esi, esi
-.LBB2_462:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_464
-	.p2align	4, 0x90
-.LBB2_463:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_463
-.LBB2_464:
-	cmp	r11, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_465:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_465
-	jmp	.LBB2_474
-.LBB2_113:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.114:
-	mov	r14d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_115
-# %bb.191:
-	lea	rax, [rcx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB2_281
-# %bb.192:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_281
-.LBB2_115:
-	xor	esi, esi
-.LBB2_470:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_472
-	.p2align	4, 0x90
-.LBB2_471:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_471
-.LBB2_472:
-	cmp	r11, 3
-	jb	.LBB2_474
-	.p2align	4, 0x90
-.LBB2_473:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_473
-	jmp	.LBB2_474
-.LBB2_116:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.117:
-	movzx	r14d, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_118
-# %bb.236:
-	lea	rax, [rcx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB2_296
-# %bb.237:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_296
-.LBB2_118:
-	xor	esi, esi
-.LBB2_694:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_696
-.LBB2_695:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_695
-.LBB2_696:
-	cmp	r11, 3
-	jb	.LBB2_3
-.LBB2_697:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_697
-	jmp	.LBB2_3
-.LBB2_119:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.120:
-	movzx	r14d, word ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_121
-# %bb.239:
-	lea	rax, [rcx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB2_299
-# %bb.240:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_299
-.LBB2_121:
-	xor	esi, esi
-.LBB2_702:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_704
-.LBB2_703:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_703
-.LBB2_704:
-	cmp	r11, 3
-	jb	.LBB2_3
-.LBB2_705:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, r14w
-	mov	word ptr [r8 + 2*rsi + 6], ax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_705
-	jmp	.LBB2_3
-.LBB2_122:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.123:
-	mov	r14, qword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_124
-# %bb.242:
-	lea	rax, [rcx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB2_302
-# %bb.243:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_302
-.LBB2_124:
-	xor	esi, esi
-.LBB2_710:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_712
-.LBB2_711:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_711
-.LBB2_712:
-	cmp	r11, 3
-	jb	.LBB2_3
-.LBB2_713:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, r14
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_713
-	jmp	.LBB2_3
-.LBB2_125:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.126:
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	r11d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_127
-# %bb.245:
-	lea	rax, [rcx + 4*r11]
-	cmp	rax, r8
-	jbe	.LBB2_305
-# %bb.246:
-	lea	rax, [r8 + 4*r11]
-	cmp	rax, rcx
-	jbe	.LBB2_305
-.LBB2_127:
-	xor	esi, esi
-.LBB2_718:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB2_720
-.LBB2_719:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi], xmm1
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_719
-.LBB2_720:
-	cmp	rax, 3
-	jb	.LBB2_3
-.LBB2_721:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rsi]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rsi + 4] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi + 4], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rsi + 8] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi + 8], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rsi + 12] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
-	movss	dword ptr [r8 + 4*rsi + 12], xmm1
-	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB2_721
-	jmp	.LBB2_3
-.LBB2_128:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.129:
-	mov	r14b, byte ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_130
-# %bb.248:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_308
-# %bb.249:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_308
-.LBB2_130:
-	xor	esi, esi
-.LBB2_726:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_728
-.LBB2_727:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_727
-.LBB2_728:
-	cmp	r11, 3
-	jb	.LBB2_3
-.LBB2_729:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, r14b
-	mov	byte ptr [r8 + rsi + 3], al
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_729
-	jmp	.LBB2_3
-.LBB2_131:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.132:
-	mov	r14d, dword ptr [rdx]
-	mov	r10d, r9d
-	cmp	r9d, 8
-	jb	.LBB2_133
-# %bb.251:
-	lea	rax, [rcx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB2_311
-# %bb.252:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_311
-.LBB2_133:
-	xor	esi, esi
-.LBB2_734:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_736
-.LBB2_735:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_735
-.LBB2_736:
-	cmp	r11, 3
-	jb	.LBB2_3
-.LBB2_737:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, r14d
-	mov	dword ptr [r8 + 4*rsi + 12], eax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_737
-	jmp	.LBB2_3
-.LBB2_194:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r11d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_314
-# %bb.195:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB2_196:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 48]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm1
-	add	rbx, 16
-	add	rdi, 2
-	jne	.LBB2_196
-	jmp	.LBB2_315
-.LBB2_197:
-	mov	edx, eax
-	and	edx, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rsi, [rdx - 4]
-	mov	rbx, rsi
-	shr	rbx, 2
-	add	rbx, 1
-	test	rsi, rsi
-	je	.LBB2_322
-# %bb.198:
-	mov	rsi, rbx
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
-.LBB2_199:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	movapd	xmm2, xmm1
-	subpd	xmm2, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	movapd	xmm2, xmm1
-	subpd	xmm2, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm2
-	add	rdi, 8
-	add	rsi, 2
-	jne	.LBB2_199
-	jmp	.LBB2_323
-.LBB2_200:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, r11b
-	movd	xmm0, edx
-	xorpd	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_330
-# %bb.201:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB2_202:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rbx]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rbx], xmm3
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 48]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rbx + 32], xmm3
-	movdqu	xmmword ptr [r8 + rbx + 48], xmm1
-	add	rbx, 64
-	add	rdi, 2
-	jne	.LBB2_202
-	jmp	.LBB2_331
-.LBB2_203:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r11
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_338
-# %bb.204:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB2_205:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 48]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm1
-	add	rbx, 8
-	add	rdi, 2
-	jne	.LBB2_205
-	jmp	.LBB2_339
-.LBB2_206:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_346
-# %bb.207:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB2_208:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 48]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm1
-	add	rbx, 32
-	add	rdi, 2
-	jne	.LBB2_208
-	jmp	.LBB2_347
-.LBB2_209:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, eax
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 16]
-	mov	r9, rdx
-	shr	r9, 4
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_354
-# %bb.210:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB2_211:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 48]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm1
-	add	rbx, 32
-	add	rdi, 2
-	jne	.LBB2_211
-	jmp	.LBB2_355
-.LBB2_212:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r11
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rdx, [rsi - 4]
-	mov	r9, rdx
-	shr	r9, 2
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_362
-# %bb.213:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB2_214:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 48]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm1
-	add	rbx, 8
-	add	rdi, 2
-	jne	.LBB2_214
-	jmp	.LBB2_363
-.LBB2_215:
-	mov	edx, eax
-	and	edx, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rsi, [rdx - 8]
-	mov	rbx, rsi
-	shr	rbx, 3
-	add	rbx, 1
-	test	rsi, rsi
-	je	.LBB2_370
-# %bb.216:
-	mov	rsi, rbx
-	and	rsi, -2
-	neg	rsi
+	je	.LBB1_737
+	jmp	.LBB1_421
+.LBB1_425:
 	xor	edi, edi
-.LBB2_217:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	movaps	xmm2, xmm1
-	subps	xmm2, xmm3
-	movups	xmmword ptr [r8 + 4*rdi], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	movaps	xmm2, xmm1
-	subps	xmm2, xmm3
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm2
-	add	rdi, 16
-	add	rsi, 2
-	jne	.LBB2_217
-	jmp	.LBB2_371
-.LBB2_218:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	edx, r11b
-	movd	xmm0, edx
-	xorpd	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rdx, [rsi - 32]
-	mov	r9, rdx
-	shr	r9, 5
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_378
-# %bb.219:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB2_220:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rbx]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rbx], xmm3
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 48]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rbx + 32], xmm3
-	movdqu	xmmword ptr [r8 + rbx + 48], xmm1
-	add	rbx, 64
-	add	rdi, 2
-	jne	.LBB2_220
-	jmp	.LBB2_379
-.LBB2_221:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r11d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rdx, [rsi - 8]
-	mov	r9, rdx
-	shr	r9, 3
-	add	r9, 1
-	test	rdx, rdx
-	je	.LBB2_386
-# %bb.222:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	ebx, ebx
-.LBB2_223:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 48]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm1
-	add	rbx, 16
-	add	rdi, 2
-	jne	.LBB2_223
-	jmp	.LBB2_387
-.LBB2_254:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r14d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_394
-# %bb.255:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_256:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 48]
+.LBB1_426:
+	test	r9b, 1
+	je	.LBB1_428
+# %bb.427:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_428:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_429
+.LBB1_433:
+	xor	edi, edi
+.LBB1_434:
+	test	r9b, 1
+	je	.LBB1_436
+# %bb.435:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
 	paddd	xmm1, xmm0
 	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB2_256
-	jmp	.LBB2_395
-.LBB2_257:
-	mov	esi, r11d
-	and	esi, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rax, [rsi - 4]
-	mov	r10, rax
-	shr	r10, 2
-	add	r10, 1
-	test	rax, rax
-	je	.LBB2_402
-# %bb.258:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_259:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx + 8*rbx]
-	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 16]
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_436:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_437
+.LBB1_441:
+	xor	edi, edi
+.LBB1_442:
+	test	r9b, 1
+	je	.LBB1_444
+# %bb.443:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_444:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_445
+.LBB1_449:
+	xor	edi, edi
+.LBB1_450:
+	test	r9b, 1
+	je	.LBB1_452
+# %bb.451:
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
 	addpd	xmm2, xmm1
 	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rbx], xmm2
-	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
-	movupd	xmm2, xmmword ptr [rcx + 8*rbx + 32]
-	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 48]
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+.LBB1_452:
+	cmp	rcx, rax
+	je	.LBB1_737
+	jmp	.LBB1_453
+.LBB1_457:
+	xor	edi, edi
+.LBB1_458:
+	test	r9b, 1
+	je	.LBB1_460
+# %bb.459:
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+.LBB1_460:
+	cmp	rcx, rax
+	je	.LBB1_737
+	jmp	.LBB1_461
+.LBB1_465:
+	xor	edi, edi
+.LBB1_466:
+	test	r9b, 1
+	je	.LBB1_468
+# %bb.467:
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
 	addpd	xmm2, xmm1
 	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rbx + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rbx + 48], xmm3
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB2_259
-	jmp	.LBB2_403
-.LBB2_260:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	eax, r14b
-	movd	xmm0, eax
-	xorpd	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_410
-# %bb.261:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_262:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rbx]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+.LBB1_468:
+	cmp	rcx, rax
+	je	.LBB1_737
+	jmp	.LBB1_469
+.LBB1_473:
+	xor	edi, edi
+.LBB1_474:
+	test	r9b, 1
+	je	.LBB1_476
+# %bb.475:
+	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+.LBB1_476:
+	cmp	rcx, rax
+	je	.LBB1_737
+	jmp	.LBB1_477
+.LBB1_481:
+	xor	edi, edi
+.LBB1_482:
+	test	r9b, 1
+	je	.LBB1_484
+# %bb.483:
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
 	paddb	xmm1, xmm0
 	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 48]
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB1_484:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_485
+.LBB1_489:
+	xor	edi, edi
+.LBB1_490:
+	test	r9b, 1
+	je	.LBB1_492
+# %bb.491:
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB1_492:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_493
+.LBB1_497:
+	xor	edi, edi
+.LBB1_498:
+	test	r9b, 1
+	je	.LBB1_500
+# %bb.499:
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
 	paddb	xmm1, xmm0
 	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_262
-	jmp	.LBB2_411
-.LBB2_263:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r14
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_418
-# %bb.264:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_265:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB1_500:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_501
+.LBB1_505:
+	xor	edi, edi
+.LBB1_506:
+	test	r9b, 1
+	je	.LBB1_508
+# %bb.507:
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB1_508:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_509
+.LBB1_513:
+	xor	edi, edi
+.LBB1_514:
+	test	r9b, 1
+	je	.LBB1_516
+# %bb.515:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
 	paddq	xmm1, xmm0
 	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 48]
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB1_516:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_517
+.LBB1_521:
+	xor	edi, edi
+.LBB1_522:
+	test	r9b, 1
+	je	.LBB1_524
+# %bb.523:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB1_524:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_525
+.LBB1_529:
+	xor	edi, edi
+.LBB1_530:
+	test	r9b, 1
+	je	.LBB1_532
+# %bb.531:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
 	paddq	xmm1, xmm0
 	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB2_265
-	jmp	.LBB2_419
-.LBB2_266:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, r14d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_426
-# %bb.267:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_268:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB1_532:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_533
+.LBB1_537:
+	xor	edi, edi
+.LBB1_538:
+	test	r9b, 1
+	je	.LBB1_540
+# %bb.539:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB1_540:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_541
+.LBB1_545:
+	xor	edi, edi
+.LBB1_546:
+	test	r9b, 1
+	je	.LBB1_548
+# %bb.547:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
 	paddw	xmm1, xmm0
 	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 48]
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_548:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_549
+.LBB1_553:
+	xor	edi, edi
+.LBB1_554:
+	test	r9b, 1
+	je	.LBB1_556
+# %bb.555:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
 	paddw	xmm1, xmm0
 	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB2_268
-	jmp	.LBB2_427
-.LBB2_269:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, r14d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_434
-# %bb.270:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_271:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_556:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_557
+.LBB1_561:
+	xor	edi, edi
+.LBB1_562:
+	test	r9b, 1
+	je	.LBB1_564
+# %bb.563:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_564:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_565
+.LBB1_569:
+	xor	edi, edi
+.LBB1_570:
+	test	r9b, 1
+	je	.LBB1_572
+# %bb.571:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_572:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_573
+.LBB1_577:
+	xor	edi, edi
+.LBB1_578:
+	test	r9b, 1
+	je	.LBB1_580
+# %bb.579:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
 	paddw	xmm1, xmm0
 	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 48]
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_580:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_581
+.LBB1_585:
+	xor	edi, edi
+.LBB1_586:
+	test	r9b, 1
+	je	.LBB1_588
+# %bb.587:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
 	paddw	xmm1, xmm0
 	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB2_271
-	jmp	.LBB2_435
-.LBB2_272:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r14
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_442
-# %bb.273:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_274:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 48]
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_588:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_589
+.LBB1_593:
+	xor	edi, edi
+.LBB1_594:
+	test	r9b, 1
+	je	.LBB1_596
+# %bb.595:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_596:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_597
+.LBB1_601:
+	xor	edi, edi
+.LBB1_602:
+	test	r9b, 1
+	je	.LBB1_604
+# %bb.603:
+	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB1_604:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_605
+.LBB1_609:
+	xor	edi, edi
+.LBB1_610:
+	test	r9b, 1
+	je	.LBB1_612
+# %bb.611:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
 	paddq	xmm1, xmm0
 	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB2_274
-	jmp	.LBB2_443
-.LBB2_275:
-	mov	esi, r11d
-	and	esi, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rax, [rsi - 8]
-	mov	r10, rax
-	shr	r10, 3
-	add	r10, 1
-	test	rax, rax
-	je	.LBB2_450
-# %bb.276:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_277:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rcx + 4*rbx]
-	movups	xmm3, xmmword ptr [rcx + 4*rbx + 16]
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB1_612:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_613
+.LBB1_617:
+	xor	edi, edi
+.LBB1_618:
+	test	r9b, 1
+	je	.LBB1_620
+# %bb.619:
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
 	addps	xmm2, xmm1
 	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rbx], xmm2
-	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
-	movups	xmm2, xmmword ptr [rcx + 4*rbx + 32]
-	movups	xmm3, xmmword ptr [rcx + 4*rbx + 48]
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+.LBB1_620:
+	cmp	rcx, rax
+	je	.LBB1_737
+	jmp	.LBB1_621
+.LBB1_625:
+	xor	edi, edi
+.LBB1_626:
+	test	r9b, 1
+	je	.LBB1_628
+# %bb.627:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB1_628:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_629
+.LBB1_633:
+	xor	edi, edi
+.LBB1_634:
+	test	r9b, 1
+	je	.LBB1_636
+# %bb.635:
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+.LBB1_636:
+	cmp	rcx, rax
+	je	.LBB1_737
+	jmp	.LBB1_637
+.LBB1_641:
+	xor	edi, edi
+.LBB1_642:
+	test	r9b, 1
+	je	.LBB1_644
+# %bb.643:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB1_644:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_645
+.LBB1_649:
+	xor	edi, edi
+.LBB1_650:
+	test	r9b, 1
+	je	.LBB1_652
+# %bb.651:
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
 	addps	xmm2, xmm1
 	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rbx + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rbx + 48], xmm3
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB2_277
-	jmp	.LBB2_451
-.LBB2_278:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	eax, r14b
-	movd	xmm0, eax
-	xorpd	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_458
-# %bb.279:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_280:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rbx]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+.LBB1_652:
+	cmp	rcx, rax
+	je	.LBB1_737
+	jmp	.LBB1_653
+.LBB1_657:
+	xor	edi, edi
+.LBB1_658:
+	test	r9b, 1
+	je	.LBB1_660
+# %bb.659:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB1_660:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_661
+.LBB1_665:
+	xor	edi, edi
+.LBB1_666:
+	test	r9b, 1
+	je	.LBB1_668
+# %bb.667:
+	movups	xmm2, xmmword ptr [rdx + 4*rdi]
+	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+.LBB1_668:
+	cmp	rcx, rax
+	je	.LBB1_737
+	jmp	.LBB1_669
+.LBB1_673:
+	xor	edi, edi
+.LBB1_674:
+	test	r9b, 1
+	je	.LBB1_676
+# %bb.675:
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
 	paddb	xmm1, xmm0
 	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 48]
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB1_676:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_677
+.LBB1_681:
+	xor	edi, edi
+.LBB1_682:
+	test	r9b, 1
+	je	.LBB1_684
+# %bb.683:
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB1_684:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_685
+.LBB1_689:
+	xor	edi, edi
+.LBB1_690:
+	test	r9b, 1
+	je	.LBB1_692
+# %bb.691:
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
 	paddb	xmm1, xmm0
 	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_280
-	jmp	.LBB2_459
-.LBB2_281:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r14d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_466
-# %bb.282:
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB1_692:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_693
+.LBB1_697:
+	xor	edi, edi
+.LBB1_698:
+	test	r9b, 1
+	je	.LBB1_700
+# %bb.699:
+	movdqu	xmm1, xmmword ptr [rdx + rdi]
+	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB1_700:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_701
+.LBB1_705:
+	xor	edi, edi
+.LBB1_706:
+	test	r9b, 1
+	je	.LBB1_708
+# %bb.707:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_708:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_709
+.LBB1_713:
+	xor	edi, edi
+.LBB1_714:
+	test	r9b, 1
+	je	.LBB1_716
+# %bb.715:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_716:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_717
+.LBB1_721:
+	xor	edi, edi
+.LBB1_722:
+	test	r9b, 1
+	je	.LBB1_724
+# %bb.723:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_724:
+	cmp	rsi, r10
+	je	.LBB1_737
+	jmp	.LBB1_725
+.LBB1_729:
+	xor	edi, edi
+.LBB1_730:
+	test	r9b, 1
+	je	.LBB1_732
+# %bb.731:
+	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB1_732:
+	cmp	rsi, r10
+	jne	.LBB1_733
+.LBB1_737:
+	mov	rsp, rbp
+	pop	rbp
+	ret
+.Lfunc_end1:
+	.size	arithmetic_arr_scalar_sse4, .Lfunc_end1-arithmetic_arr_scalar_sse4
+                                        # -- End function
+	.globl	arithmetic_scalar_arr_sse4      # -- Begin function arithmetic_scalar_arr_sse4
+	.p2align	4, 0x90
+	.type	arithmetic_scalar_arr_sse4,@function
+arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
+# %bb.0:
+	push	rbp
+	mov	rbp, rsp
+	and	rsp, -8
+	cmp	sil, 1
+	jg	.LBB2_11
+# %bb.1:
+	test	sil, sil
+	je	.LBB2_21
+# %bb.2:
+	cmp	sil, 1
+	jne	.LBB2_737
+# %bb.3:
+	cmp	edi, 6
+	jg	.LBB2_37
+# %bb.4:
+	cmp	edi, 3
+	jle	.LBB2_65
+# %bb.5:
+	cmp	edi, 4
+	je	.LBB2_105
+# %bb.6:
+	cmp	edi, 5
+	je	.LBB2_108
+# %bb.7:
+	cmp	edi, 6
+	jne	.LBB2_737
+# %bb.8:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.9:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_10
+# %bb.177:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_297
+# %bb.178:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_297
+.LBB2_10:
+	xor	esi, esi
+.LBB2_421:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_423
+.LBB2_422:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_422
+.LBB2_423:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_424:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_424
+	jmp	.LBB2_737
+.LBB2_11:
+	cmp	sil, 2
+	je	.LBB2_29
+# %bb.12:
+	cmp	sil, 3
+	jne	.LBB2_737
+# %bb.13:
+	cmp	edi, 6
+	jg	.LBB2_44
+# %bb.14:
+	cmp	edi, 3
+	jle	.LBB2_70
+# %bb.15:
+	cmp	edi, 4
+	je	.LBB2_111
+# %bb.16:
+	cmp	edi, 5
+	je	.LBB2_114
+# %bb.17:
+	cmp	edi, 6
+	jne	.LBB2_737
+# %bb.18:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.19:
+	mov	r11d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_20
+# %bb.180:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_300
+# %bb.181:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_300
+.LBB2_20:
+	xor	esi, esi
+.LBB2_429:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_431
+.LBB2_430:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_430
+.LBB2_431:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_432:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_432
+	jmp	.LBB2_737
+.LBB2_21:
+	cmp	edi, 6
+	jg	.LBB2_51
+# %bb.22:
+	cmp	edi, 3
+	jle	.LBB2_75
+# %bb.23:
+	cmp	edi, 4
+	je	.LBB2_117
+# %bb.24:
+	cmp	edi, 5
+	je	.LBB2_120
+# %bb.25:
+	cmp	edi, 6
+	jne	.LBB2_737
+# %bb.26:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.27:
+	mov	eax, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_28
+# %bb.183:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_303
+# %bb.184:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_303
+.LBB2_28:
+	xor	esi, esi
+.LBB2_437:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_439
+.LBB2_438:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_438
+.LBB2_439:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_440:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_440
+	jmp	.LBB2_737
+.LBB2_29:
+	cmp	edi, 6
+	jg	.LBB2_58
+# %bb.30:
+	cmp	edi, 3
+	jle	.LBB2_80
+# %bb.31:
+	cmp	edi, 4
+	je	.LBB2_123
+# %bb.32:
+	cmp	edi, 5
+	je	.LBB2_126
+# %bb.33:
+	cmp	edi, 6
+	jne	.LBB2_737
+# %bb.34:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.35:
+	mov	r11d, dword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 8
+	jb	.LBB2_36
+# %bb.186:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_306
+# %bb.187:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_306
+.LBB2_36:
+	xor	esi, esi
+.LBB2_445:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_447
+.LBB2_446:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_446
+.LBB2_447:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_448:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_448
+	jmp	.LBB2_737
+.LBB2_37:
+	cmp	edi, 8
+	jle	.LBB2_85
+# %bb.38:
+	cmp	edi, 9
+	je	.LBB2_129
+# %bb.39:
+	cmp	edi, 11
+	je	.LBB2_132
+# %bb.40:
+	cmp	edi, 12
+	jne	.LBB2_737
+# %bb.41:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.42:
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB2_43
+# %bb.189:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_309
+# %bb.190:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_309
+.LBB2_43:
+	xor	edx, edx
+.LBB2_453:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_455
+.LBB2_454:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_454
+.LBB2_455:
+	cmp	rsi, 3
+	jb	.LBB2_737
+.LBB2_456:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 8] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 16] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 24] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_456
+	jmp	.LBB2_737
+.LBB2_44:
+	cmp	edi, 8
+	jle	.LBB2_90
+# %bb.45:
+	cmp	edi, 9
+	je	.LBB2_135
+# %bb.46:
+	cmp	edi, 11
+	je	.LBB2_138
+# %bb.47:
+	cmp	edi, 12
+	jne	.LBB2_737
+# %bb.48:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.49:
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB2_50
+# %bb.192:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_312
+# %bb.193:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_312
+.LBB2_50:
+	xor	edx, edx
+.LBB2_461:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_463
+.LBB2_462:                              # =>This Inner Loop Header: Depth=1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx]
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_462
+.LBB2_463:
+	cmp	rsi, 3
+	jb	.LBB2_737
+.LBB2_464:                              # =>This Inner Loop Header: Depth=1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx]
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 8]
+	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 16]
+	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 24]
+	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_464
+	jmp	.LBB2_737
+.LBB2_51:
+	cmp	edi, 8
+	jle	.LBB2_95
+# %bb.52:
+	cmp	edi, 9
+	je	.LBB2_141
+# %bb.53:
+	cmp	edi, 11
+	je	.LBB2_144
+# %bb.54:
+	cmp	edi, 12
+	jne	.LBB2_737
+# %bb.55:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.56:
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB2_57
+# %bb.195:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_315
+# %bb.196:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_315
+.LBB2_57:
+	xor	edx, edx
+.LBB2_469:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_471
+.LBB2_470:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_470
+.LBB2_471:
+	cmp	rsi, 3
+	jb	.LBB2_737
+.LBB2_472:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 8] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 16] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 24] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
+	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_472
+	jmp	.LBB2_737
+.LBB2_58:
+	cmp	edi, 8
+	jle	.LBB2_100
+# %bb.59:
+	cmp	edi, 9
+	je	.LBB2_147
+# %bb.60:
+	cmp	edi, 11
+	je	.LBB2_150
+# %bb.61:
+	cmp	edi, 12
+	jne	.LBB2_737
+# %bb.62:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.63:
+	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
+	mov	eax, r9d
+	cmp	r9d, 4
+	jb	.LBB2_64
+# %bb.198:
+	lea	rdx, [rcx + 8*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_318
+# %bb.199:
+	lea	rdx, [r8 + 8*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_318
+.LBB2_64:
+	xor	edx, edx
+.LBB2_477:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_479
+.LBB2_478:                              # =>This Inner Loop Header: Depth=1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx]
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_478
+.LBB2_479:
+	cmp	rsi, 3
+	jb	.LBB2_737
+.LBB2_480:                              # =>This Inner Loop Header: Depth=1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx]
+	movsd	qword ptr [r8 + 8*rdx], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 8]
+	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 16]
+	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 24]
+	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_480
+	jmp	.LBB2_737
+.LBB2_65:
+	cmp	edi, 2
+	je	.LBB2_153
+# %bb.66:
+	cmp	edi, 3
+	jne	.LBB2_737
+# %bb.67:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.68:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_69
+# %bb.201:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_321
+# %bb.202:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_321
+.LBB2_69:
+	xor	esi, esi
+.LBB2_485:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_487
+.LBB2_486:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_486
+.LBB2_487:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_488:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_488
+	jmp	.LBB2_737
+.LBB2_70:
+	cmp	edi, 2
+	je	.LBB2_156
+# %bb.71:
+	cmp	edi, 3
+	jne	.LBB2_737
+# %bb.72:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.73:
+	mov	r11b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_74
+# %bb.204:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_324
+# %bb.205:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_324
+.LBB2_74:
+	xor	esi, esi
+.LBB2_493:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_495
+.LBB2_494:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_494
+.LBB2_495:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_496:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_496
+	jmp	.LBB2_737
+.LBB2_75:
+	cmp	edi, 2
+	je	.LBB2_159
+# %bb.76:
+	cmp	edi, 3
+	jne	.LBB2_737
+# %bb.77:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.78:
+	mov	al, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_79
+# %bb.207:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_327
+# %bb.208:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_327
+.LBB2_79:
+	xor	esi, esi
+.LBB2_501:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_503
+.LBB2_502:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_502
+.LBB2_503:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_504:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_504
+	jmp	.LBB2_737
+.LBB2_80:
+	cmp	edi, 2
+	je	.LBB2_162
+# %bb.81:
+	cmp	edi, 3
+	jne	.LBB2_737
+# %bb.82:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.83:
+	mov	r11b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_84
+# %bb.210:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_330
+# %bb.211:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_330
+.LBB2_84:
+	xor	esi, esi
+.LBB2_509:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_511
+.LBB2_510:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_510
+.LBB2_511:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_512:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_512
+	jmp	.LBB2_737
+.LBB2_85:
+	cmp	edi, 7
+	je	.LBB2_165
+# %bb.86:
+	cmp	edi, 8
+	jne	.LBB2_737
+# %bb.87:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.88:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_89
+# %bb.213:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_333
+# %bb.214:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_333
+.LBB2_89:
+	xor	esi, esi
+.LBB2_517:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_519
+.LBB2_518:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_518
+.LBB2_519:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_520:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_520
+	jmp	.LBB2_737
+.LBB2_90:
+	cmp	edi, 7
+	je	.LBB2_168
+# %bb.91:
+	cmp	edi, 8
+	jne	.LBB2_737
+# %bb.92:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.93:
+	mov	r11, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_94
+# %bb.216:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_336
+# %bb.217:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_336
+.LBB2_94:
+	xor	esi, esi
+.LBB2_525:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_527
+.LBB2_526:                              # =>This Inner Loop Header: Depth=1
 	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_283:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB2_283
-	jmp	.LBB2_467
-.LBB2_284:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r14d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_658
-# %bb.285:
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_526
+.LBB2_527:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_528:                              # =>This Inner Loop Header: Depth=1
 	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_286:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB2_286
-	jmp	.LBB2_659
-.LBB2_287:
-	mov	esi, r11d
-	and	esi, -4
-	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rax, [rsi - 4]
-	mov	r10, rax
-	shr	r10, 2
-	add	r10, 1
-	test	rax, rax
-	je	.LBB2_666
-# %bb.288:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_289:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx + 8*rbx]
-	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rbx], xmm2
-	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
-	movupd	xmm2, xmmword ptr [rcx + 8*rbx + 32]
-	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 48]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rbx + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rbx + 48], xmm3
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB2_289
-	jmp	.LBB2_667
-.LBB2_290:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	eax, r14b
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_674
-# %bb.291:
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
 	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_292:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rbx]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_292
-	jmp	.LBB2_675
-.LBB2_293:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r14
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_682
-# %bb.294:
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
 	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_295:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB2_295
-	jmp	.LBB2_683
-.LBB2_296:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, r14d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_690
-# %bb.297:
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
 	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_298:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB2_298
-	jmp	.LBB2_691
-.LBB2_299:
-	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, r14d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_698
-# %bb.300:
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_528
+	jmp	.LBB2_737
+.LBB2_95:
+	cmp	edi, 7
+	je	.LBB2_171
+# %bb.96:
+	cmp	edi, 8
+	jne	.LBB2_737
+# %bb.97:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.98:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_99
+# %bb.219:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_339
+# %bb.220:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_339
+.LBB2_99:
+	xor	esi, esi
+.LBB2_533:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_535
+.LBB2_534:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_534
+.LBB2_535:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_536:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_536
+	jmp	.LBB2_737
+.LBB2_100:
+	cmp	edi, 7
+	je	.LBB2_174
+# %bb.101:
+	cmp	edi, 8
+	jne	.LBB2_737
+# %bb.102:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.103:
+	mov	r11, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_104
+# %bb.222:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_342
+# %bb.223:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_342
+.LBB2_104:
+	xor	esi, esi
+.LBB2_541:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_543
+.LBB2_542:                              # =>This Inner Loop Header: Depth=1
 	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_301:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm2
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB2_301
-	jmp	.LBB2_699
-.LBB2_302:
-	mov	esi, r10d
-	and	esi, -4
-	movq	xmm0, r14
-	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_706
-# %bb.303:
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_542
+.LBB2_543:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_544:                              # =>This Inner Loop Header: Depth=1
 	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_304:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm2
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB2_304
-	jmp	.LBB2_707
-.LBB2_305:
-	mov	esi, r11d
-	and	esi, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rax, [rsi - 8]
-	mov	r10, rax
-	shr	r10, 3
-	add	r10, 1
-	test	rax, rax
-	je	.LBB2_714
-# %bb.306:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_307:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rcx + 4*rbx]
-	movups	xmm3, xmmword ptr [rcx + 4*rbx + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rbx], xmm2
-	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
-	movups	xmm2, xmmword ptr [rcx + 4*rbx + 32]
-	movups	xmm3, xmmword ptr [rcx + 4*rbx + 48]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rbx + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rbx + 48], xmm3
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB2_307
-	jmp	.LBB2_715
-.LBB2_308:
-	mov	esi, r10d
-	and	esi, -32
-	movzx	eax, r14b
-	movd	xmm0, eax
-	pxor	xmm1, xmm1
-	pshufb	xmm0, xmm1
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_722
-# %bb.309:
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
 	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_310:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rbx]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 48], xmm2
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_310
-	jmp	.LBB2_723
-.LBB2_311:
-	mov	esi, r10d
-	and	esi, -8
-	movd	xmm0, r14d
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_730
-# %bb.312:
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
 	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_313:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm2
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB2_313
-	jmp	.LBB2_731
-.LBB2_314:
-	xor	ebx, ebx
-.LBB2_315:
-	test	r9b, 1
-	je	.LBB2_317
-# %bb.316:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	psubd	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm0
-.LBB2_317:
-	cmp	rsi, r10
-	je	.LBB2_517
-	jmp	.LBB2_318
-.LBB2_322:
-	xor	edi, edi
-.LBB2_323:
-	test	bl, 1
-	je	.LBB2_325
-# %bb.324:
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	subpd	xmm1, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB2_325:
-	cmp	rdx, rax
-	je	.LBB2_517
-	jmp	.LBB2_326
-.LBB2_330:
-	xor	ebx, ebx
-.LBB2_331:
-	test	r9b, 1
-	je	.LBB2_333
-# %bb.332:
-	movdqu	xmm1, xmmword ptr [rcx + rbx]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	psubb	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + rbx], xmm3
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm0
-.LBB2_333:
-	cmp	rsi, r10
-	je	.LBB2_517
-	jmp	.LBB2_334
-.LBB2_338:
-	xor	ebx, ebx
-.LBB2_339:
-	test	r9b, 1
-	je	.LBB2_341
-# %bb.340:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	psubq	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm0
-.LBB2_341:
-	cmp	rsi, r10
-	je	.LBB2_517
-	jmp	.LBB2_342
-.LBB2_346:
-	xor	ebx, ebx
-.LBB2_347:
-	test	r9b, 1
-	je	.LBB2_349
-# %bb.348:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	psubw	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm0
-.LBB2_349:
-	cmp	rsi, r10
-	je	.LBB2_517
-	jmp	.LBB2_350
-.LBB2_354:
-	xor	ebx, ebx
-.LBB2_355:
-	test	r9b, 1
-	je	.LBB2_357
-# %bb.356:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	psubw	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm0
-.LBB2_357:
-	cmp	rsi, r10
-	je	.LBB2_517
-	jmp	.LBB2_358
-.LBB2_362:
-	xor	ebx, ebx
-.LBB2_363:
-	test	r9b, 1
-	je	.LBB2_365
-# %bb.364:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	psubq	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm0
-.LBB2_365:
-	cmp	rsi, r10
-	je	.LBB2_517
-	jmp	.LBB2_366
-.LBB2_370:
-	xor	edi, edi
-.LBB2_371:
-	test	bl, 1
-	je	.LBB2_373
-# %bb.372:
-	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	subps	xmm1, xmm3
-	movups	xmmword ptr [r8 + 4*rdi], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB2_373:
-	cmp	rdx, rax
-	je	.LBB2_517
-	jmp	.LBB2_374
-.LBB2_378:
-	xor	ebx, ebx
-.LBB2_379:
-	test	r9b, 1
-	je	.LBB2_381
-# %bb.380:
-	movdqu	xmm1, xmmword ptr [rcx + rbx]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	psubb	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + rbx], xmm3
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm0
-.LBB2_381:
-	cmp	rsi, r10
-	je	.LBB2_517
-	jmp	.LBB2_382
-.LBB2_386:
-	xor	ebx, ebx
-.LBB2_387:
-	test	r9b, 1
-	je	.LBB2_389
-# %bb.388:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	psubd	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm0
-.LBB2_389:
-	cmp	rsi, r10
-	je	.LBB2_517
-	jmp	.LBB2_390
-.LBB2_394:
-	xor	ebx, ebx
-.LBB2_395:
-	test	r11b, 1
-	je	.LBB2_397
-# %bb.396:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-.LBB2_397:
-	cmp	rsi, r10
-	je	.LBB2_474
-	jmp	.LBB2_398
-.LBB2_402:
-	xor	ebx, ebx
-.LBB2_403:
-	test	r10b, 1
-	je	.LBB2_405
-# %bb.404:
-	movupd	xmm2, xmmword ptr [rcx + 8*rbx]
-	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rbx], xmm2
-	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
-.LBB2_405:
-	cmp	rsi, r11
-	je	.LBB2_474
-	jmp	.LBB2_406
-.LBB2_410:
-	xor	ebx, ebx
-.LBB2_411:
-	test	r11b, 1
-	je	.LBB2_413
-# %bb.412:
-	movdqu	xmm1, xmmword ptr [rcx + rbx]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-.LBB2_413:
-	cmp	rsi, r10
-	je	.LBB2_474
-	jmp	.LBB2_414
-.LBB2_418:
-	xor	ebx, ebx
-.LBB2_419:
-	test	r11b, 1
-	je	.LBB2_421
-# %bb.420:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-.LBB2_421:
-	cmp	rsi, r10
-	je	.LBB2_474
-	jmp	.LBB2_422
-.LBB2_426:
-	xor	ebx, ebx
-.LBB2_427:
-	test	r11b, 1
-	je	.LBB2_429
-# %bb.428:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-.LBB2_429:
-	cmp	rsi, r10
-	je	.LBB2_474
-	jmp	.LBB2_430
-.LBB2_434:
-	xor	ebx, ebx
-.LBB2_435:
-	test	r11b, 1
-	je	.LBB2_437
-# %bb.436:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-.LBB2_437:
-	cmp	rsi, r10
-	je	.LBB2_474
-	jmp	.LBB2_438
-.LBB2_442:
-	xor	ebx, ebx
-.LBB2_443:
-	test	r11b, 1
-	je	.LBB2_445
-# %bb.444:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-.LBB2_445:
-	cmp	rsi, r10
-	je	.LBB2_474
-	jmp	.LBB2_446
-.LBB2_450:
-	xor	ebx, ebx
-.LBB2_451:
-	test	r10b, 1
-	je	.LBB2_453
-# %bb.452:
-	movups	xmm2, xmmword ptr [rcx + 4*rbx]
-	movups	xmm3, xmmword ptr [rcx + 4*rbx + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rbx], xmm2
-	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
-.LBB2_453:
-	cmp	rsi, r11
-	je	.LBB2_474
-	jmp	.LBB2_454
-.LBB2_458:
-	xor	ebx, ebx
-.LBB2_459:
-	test	r11b, 1
-	je	.LBB2_461
-# %bb.460:
-	movdqu	xmm1, xmmword ptr [rcx + rbx]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-.LBB2_461:
-	cmp	rsi, r10
-	je	.LBB2_474
-	jmp	.LBB2_462
-.LBB2_466:
-	xor	ebx, ebx
-.LBB2_467:
-	test	r11b, 1
-	je	.LBB2_469
-# %bb.468:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-.LBB2_469:
-	cmp	rsi, r10
-	jne	.LBB2_470
-.LBB2_474:
-	cmp	edi, 6
-	jg	.LBB2_482
-# %bb.475:
-	cmp	edi, 3
-	jle	.LBB2_489
-# %bb.476:
-	cmp	edi, 4
-	je	.LBB2_499
-# %bb.477:
-	cmp	edi, 5
-	je	.LBB2_502
-# %bb.478:
-	cmp	edi, 6
-	jne	.LBB2_13
-# %bb.479:
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_544
+	jmp	.LBB2_737
+.LBB2_105:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.106:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_107
+# %bb.225:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_345
+# %bb.226:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_345
+.LBB2_107:
+	xor	esi, esi
+.LBB2_549:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_551
+.LBB2_550:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_550
+.LBB2_551:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_552:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_552
+	jmp	.LBB2_737
+.LBB2_108:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.109:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_110
+# %bb.228:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_348
+# %bb.229:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_348
+.LBB2_110:
+	xor	esi, esi
+.LBB2_557:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_559
+.LBB2_558:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_558
+.LBB2_559:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_560:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_560
+	jmp	.LBB2_737
+.LBB2_111:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.112:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_113
+# %bb.231:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_351
+# %bb.232:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_351
+.LBB2_113:
+	xor	esi, esi
+.LBB2_565:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_567
+.LBB2_566:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_566
+.LBB2_567:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_568:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_568
+	jmp	.LBB2_737
+.LBB2_114:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.115:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_116
+# %bb.234:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_354
+# %bb.235:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_354
+.LBB2_116:
+	xor	esi, esi
+.LBB2_573:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_575
+.LBB2_574:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_574
+.LBB2_575:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_576:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_576
+	jmp	.LBB2_737
+.LBB2_117:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.118:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_119
+# %bb.237:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_357
+# %bb.238:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_357
+.LBB2_119:
+	xor	esi, esi
+.LBB2_581:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_583
+.LBB2_582:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_582
+.LBB2_583:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_584:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_584
+	jmp	.LBB2_737
+.LBB2_120:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.121:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_122
+# %bb.240:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_360
+# %bb.241:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_360
+.LBB2_122:
+	xor	esi, esi
+.LBB2_589:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_591
+.LBB2_590:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_590
+.LBB2_591:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_592:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_592
+	jmp	.LBB2_737
+.LBB2_123:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.124:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_125
+# %bb.243:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_363
+# %bb.244:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_363
+.LBB2_125:
+	xor	esi, esi
+.LBB2_597:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_599
+.LBB2_598:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_598
+.LBB2_599:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_600:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_600
+	jmp	.LBB2_737
+.LBB2_126:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.127:
+	movzx	eax, word ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 16
+	jb	.LBB2_128
+# %bb.246:
+	lea	rdx, [rcx + 2*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_366
+# %bb.247:
+	lea	rdx, [r8 + 2*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_366
+.LBB2_128:
+	xor	esi, esi
+.LBB2_605:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_607
+.LBB2_606:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_606
+.LBB2_607:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_608:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
+	mov	word ptr [r8 + 2*rsi], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
+	mov	word ptr [r8 + 2*rsi + 2], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
+	mov	word ptr [r8 + 2*rsi + 4], dx
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
+	mov	word ptr [r8 + 2*rsi + 6], dx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_608
+	jmp	.LBB2_737
+.LBB2_129:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.130:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_131
+# %bb.249:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_369
+# %bb.250:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_369
+.LBB2_131:
+	xor	esi, esi
+.LBB2_613:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_615
+.LBB2_614:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_614
+.LBB2_615:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_616:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_616
+	jmp	.LBB2_737
+.LBB2_132:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.133:
+	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB2_134
+# %bb.252:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_372
+# %bb.253:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_372
+.LBB2_134:
+	xor	edx, edx
+.LBB2_621:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_623
+.LBB2_622:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_622
+.LBB2_623:
+	cmp	rsi, 3
+	jb	.LBB2_737
+.LBB2_624:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 4], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 8] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 8], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 12] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_624
+	jmp	.LBB2_737
+.LBB2_135:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.480:
-	mov	r14d, dword ptr [rdx]
+	jle	.LBB2_737
+# %bb.136:
+	mov	r11, qword ptr [rdx]
 	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_137
+# %bb.255:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_375
+# %bb.256:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_375
+.LBB2_137:
+	xor	esi, esi
+.LBB2_629:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_631
+.LBB2_630:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_630
+.LBB2_631:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_632:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_632
+	jmp	.LBB2_737
+.LBB2_138:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.139:
+	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
 	cmp	r9d, 8
-	jb	.LBB2_481
-# %bb.518:
-	lea	rax, [rcx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB2_548
-# %bb.519:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_548
-.LBB2_481:
+	jb	.LBB2_140
+# %bb.258:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_378
+# %bb.259:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_378
+.LBB2_140:
+	xor	edx, edx
+.LBB2_637:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_639
+.LBB2_638:                              # =>This Inner Loop Header: Depth=1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx]
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_638
+.LBB2_639:
+	cmp	rsi, 3
+	jb	.LBB2_737
+.LBB2_640:                              # =>This Inner Loop Header: Depth=1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx]
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 4]
+	movss	dword ptr [r8 + 4*rdx + 4], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 8]
+	movss	dword ptr [r8 + 4*rdx + 8], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 12]
+	movss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_640
+	jmp	.LBB2_737
+.LBB2_141:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.142:
+	mov	rax, qword ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 4
+	jb	.LBB2_143
+# %bb.261:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_381
+# %bb.262:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_381
+.LBB2_143:
 	xor	esi, esi
-.LBB2_582:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_584
-	.p2align	4, 0x90
-.LBB2_583:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
+.LBB2_645:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_647
+.LBB2_646:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_583
-.LBB2_584:
-	cmp	r11, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_585:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r14d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r14d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r14d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+	add	rdi, -1
+	jne	.LBB2_646
+.LBB2_647:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_648:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_585
-	jmp	.LBB2_13
-.LBB2_482:
-	cmp	edi, 8
-	jle	.LBB2_494
-# %bb.483:
-	cmp	edi, 9
-	je	.LBB2_505
-# %bb.484:
-	cmp	edi, 11
-	je	.LBB2_508
-# %bb.485:
-	cmp	edi, 12
-	jne	.LBB2_13
-# %bb.486:
+	jne	.LBB2_648
+	jmp	.LBB2_737
+.LBB2_144:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.487:
-	movsd	xmm0, qword ptr [rdx]           # xmm0 = mem[0],zero
-	mov	r11d, r9d
+	jle	.LBB2_737
+# %bb.145:
+	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB2_146
+# %bb.264:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_384
+# %bb.265:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_384
+.LBB2_146:
+	xor	edx, edx
+.LBB2_653:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_655
+.LBB2_654:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_654
+.LBB2_655:
+	cmp	rsi, 3
+	jb	.LBB2_737
+.LBB2_656:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 4], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 8] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 8], xmm1
+	movss	xmm1, dword ptr [rcx + 4*rdx + 12] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
+	movss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_656
+	jmp	.LBB2_737
+.LBB2_147:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.148:
+	mov	r11, qword ptr [rdx]
+	mov	r10d, r9d
 	cmp	r9d, 4
-	jb	.LBB2_488
-# %bb.521:
-	lea	rax, [rcx + 8*r11]
-	cmp	rax, r8
-	jbe	.LBB2_551
-# %bb.522:
-	lea	rax, [r8 + 8*r11]
-	cmp	rax, rcx
-	jbe	.LBB2_551
-.LBB2_488:
+	jb	.LBB2_149
+# %bb.267:
+	lea	rdx, [rcx + 8*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_387
+# %bb.268:
+	lea	rdx, [r8 + 8*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_387
+.LBB2_149:
 	xor	esi, esi
-.LBB2_590:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB2_592
-	.p2align	4, 0x90
-.LBB2_591:                              # =>This Inner Loop Header: Depth=1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm1
+.LBB2_661:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_663
+.LBB2_662:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_591
-.LBB2_592:
-	cmp	rax, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_593:                              # =>This Inner Loop Header: Depth=1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rsi]
-	movsd	qword ptr [r8 + 8*rsi], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rsi + 8]
-	movsd	qword ptr [r8 + 8*rsi + 8], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rsi + 16]
-	movsd	qword ptr [r8 + 8*rsi + 16], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rsi + 24]
-	movsd	qword ptr [r8 + 8*rsi + 24], xmm1
+	add	rdi, -1
+	jne	.LBB2_662
+.LBB2_663:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_664:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB2_593
-	jmp	.LBB2_13
-.LBB2_489:
-	cmp	edi, 2
-	je	.LBB2_511
-# %bb.490:
-	cmp	edi, 3
-	jne	.LBB2_13
-# %bb.491:
+	cmp	r10, rsi
+	jne	.LBB2_664
+	jmp	.LBB2_737
+.LBB2_150:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.151:
+	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
+	mov	eax, r9d
+	cmp	r9d, 8
+	jb	.LBB2_152
+# %bb.270:
+	lea	rdx, [rcx + 4*rax]
+	cmp	rdx, r8
+	jbe	.LBB2_390
+# %bb.271:
+	lea	rdx, [r8 + 4*rax]
+	cmp	rdx, rcx
+	jbe	.LBB2_390
+.LBB2_152:
+	xor	edx, edx
+.LBB2_669:
+	mov	rsi, rdx
+	not	rsi
+	add	rsi, rax
+	mov	rdi, rax
+	and	rdi, 3
+	je	.LBB2_671
+.LBB2_670:                              # =>This Inner Loop Header: Depth=1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx]
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	add	rdx, 1
+	add	rdi, -1
+	jne	.LBB2_670
+.LBB2_671:
+	cmp	rsi, 3
+	jb	.LBB2_737
+.LBB2_672:                              # =>This Inner Loop Header: Depth=1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx]
+	movss	dword ptr [r8 + 4*rdx], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 4]
+	movss	dword ptr [r8 + 4*rdx + 4], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 8]
+	movss	dword ptr [r8 + 4*rdx + 8], xmm1
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 12]
+	movss	dword ptr [r8 + 4*rdx + 12], xmm1
+	add	rdx, 4
+	cmp	rax, rdx
+	jne	.LBB2_672
+	jmp	.LBB2_737
+.LBB2_153:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.492:
-	mov	r14b, byte ptr [rdx]
+	jle	.LBB2_737
+# %bb.154:
+	mov	al, byte ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jb	.LBB2_493
-# %bb.524:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_554
-# %bb.525:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_554
-.LBB2_493:
+	jb	.LBB2_155
+# %bb.273:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_393
+# %bb.274:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_393
+.LBB2_155:
+	xor	esi, esi
+.LBB2_677:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_679
+.LBB2_678:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_678
+.LBB2_679:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_680:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
+	add	rsi, 4
+	cmp	r10, rsi
+	jne	.LBB2_680
+	jmp	.LBB2_737
+.LBB2_156:
+	test	r9d, r9d
+	jle	.LBB2_737
+# %bb.157:
+	mov	r11b, byte ptr [rdx]
+	mov	r10d, r9d
+	cmp	r9d, 32
+	jb	.LBB2_158
+# %bb.276:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_396
+# %bb.277:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_396
+.LBB2_158:
 	xor	esi, esi
-.LBB2_598:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_600
-	.p2align	4, 0x90
-.LBB2_599:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
+.LBB2_685:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_687
+.LBB2_686:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
 	sub	al, byte ptr [rcx + rsi]
 	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_599
-.LBB2_600:
-	cmp	r11, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_601:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
+	add	rdi, -1
+	jne	.LBB2_686
+.LBB2_687:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_688:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
 	sub	al, byte ptr [rcx + rsi]
 	mov	byte ptr [r8 + rsi], al
-	mov	eax, r14d
+	mov	eax, r11d
 	sub	al, byte ptr [rcx + rsi + 1]
 	mov	byte ptr [r8 + rsi + 1], al
-	mov	eax, r14d
+	mov	eax, r11d
 	sub	al, byte ptr [rcx + rsi + 2]
 	mov	byte ptr [r8 + rsi + 2], al
-	mov	eax, r14d
+	mov	eax, r11d
 	sub	al, byte ptr [rcx + rsi + 3]
 	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_601
-	jmp	.LBB2_13
-.LBB2_494:
-	cmp	edi, 7
-	je	.LBB2_514
-# %bb.495:
-	cmp	edi, 8
-	jne	.LBB2_13
-# %bb.496:
+	jne	.LBB2_688
+	jmp	.LBB2_737
+.LBB2_159:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.497:
-	mov	r14, qword ptr [rdx]
+	jle	.LBB2_737
+# %bb.160:
+	mov	al, byte ptr [rdx]
 	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_498
-# %bb.527:
-	lea	rax, [rcx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB2_557
-# %bb.528:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_557
-.LBB2_498:
+	cmp	r9d, 32
+	jb	.LBB2_161
+# %bb.279:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_399
+# %bb.280:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_399
+.LBB2_161:
 	xor	esi, esi
-.LBB2_606:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_608
-	.p2align	4, 0x90
-.LBB2_607:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
+.LBB2_693:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_695
+.LBB2_694:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_607
-.LBB2_608:
-	cmp	r11, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_609:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
+	add	rdi, -1
+	jne	.LBB2_694
+.LBB2_695:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_696:                              # =>This Inner Loop Header: Depth=1
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_609
-	jmp	.LBB2_13
-.LBB2_499:
+	jne	.LBB2_696
+	jmp	.LBB2_737
+.LBB2_162:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.500:
-	movzx	r14d, word ptr [rdx]
+	jle	.LBB2_737
+# %bb.163:
+	mov	r11b, byte ptr [rdx]
 	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_501
-# %bb.530:
-	lea	rax, [rcx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB2_560
-# %bb.531:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_560
-.LBB2_501:
+	cmp	r9d, 32
+	jb	.LBB2_164
+# %bb.282:
+	lea	rdx, [rcx + r10]
+	cmp	rdx, r8
+	jbe	.LBB2_402
+# %bb.283:
+	lea	rdx, [r8 + r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_402
+.LBB2_164:
 	xor	esi, esi
-.LBB2_614:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_616
-	.p2align	4, 0x90
-.LBB2_615:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
+.LBB2_701:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_703
+.LBB2_702:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_615
-.LBB2_616:
-	cmp	r11, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_617:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rdi, -1
+	jne	.LBB2_702
+.LBB2_703:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_704:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_617
-	jmp	.LBB2_13
-.LBB2_502:
+	jne	.LBB2_704
+	jmp	.LBB2_737
+.LBB2_165:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.503:
-	movzx	r14d, word ptr [rdx]
+	jle	.LBB2_737
+# %bb.166:
+	mov	eax, dword ptr [rdx]
 	mov	r10d, r9d
-	cmp	r9d, 16
-	jb	.LBB2_504
-# %bb.533:
-	lea	rax, [rcx + 2*r10]
-	cmp	rax, r8
-	jbe	.LBB2_563
-# %bb.534:
-	lea	rax, [r8 + 2*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_563
-.LBB2_504:
-	xor	esi, esi
-.LBB2_622:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_624
-	.p2align	4, 0x90
-.LBB2_623:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
+	cmp	r9d, 8
+	jb	.LBB2_167
+# %bb.285:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_405
+# %bb.286:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_405
+.LBB2_167:
+	xor	esi, esi
+.LBB2_709:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_711
+.LBB2_710:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_623
-.LBB2_624:
-	cmp	r11, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_625:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi]
-	mov	word ptr [r8 + 2*rsi], ax
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi + 2]
-	mov	word ptr [r8 + 2*rsi + 2], ax
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi + 4]
-	mov	word ptr [r8 + 2*rsi + 4], ax
-	mov	eax, r14d
-	sub	ax, word ptr [rcx + 2*rsi + 6]
-	mov	word ptr [r8 + 2*rsi + 6], ax
+	add	rdi, -1
+	jne	.LBB2_710
+.LBB2_711:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_712:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_625
-	jmp	.LBB2_13
-.LBB2_505:
+	jne	.LBB2_712
+	jmp	.LBB2_737
+.LBB2_168:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.506:
-	mov	r14, qword ptr [rdx]
+	jle	.LBB2_737
+# %bb.169:
+	mov	r11d, dword ptr [rdx]
 	mov	r10d, r9d
-	cmp	r9d, 4
-	jb	.LBB2_507
-# %bb.536:
-	lea	rax, [rcx + 8*r10]
-	cmp	rax, r8
-	jbe	.LBB2_566
-# %bb.537:
-	lea	rax, [r8 + 8*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_566
-.LBB2_507:
-	xor	esi, esi
-.LBB2_630:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_632
-	.p2align	4, 0x90
-.LBB2_631:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_631
-.LBB2_632:
-	cmp	r11, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_633:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r14
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
-	add	rsi, 4
-	cmp	r10, rsi
-	jne	.LBB2_633
-	jmp	.LBB2_13
-.LBB2_508:
-	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.509:
-	movss	xmm0, dword ptr [rdx]           # xmm0 = mem[0],zero,zero,zero
-	mov	r11d, r9d
 	cmp	r9d, 8
-	jb	.LBB2_510
-# %bb.539:
-	lea	rax, [rcx + 4*r11]
-	cmp	rax, r8
-	jbe	.LBB2_569
-# %bb.540:
-	lea	rax, [r8 + 4*r11]
-	cmp	rax, rcx
-	jbe	.LBB2_569
-.LBB2_510:
+	jb	.LBB2_170
+# %bb.288:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_408
+# %bb.289:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_408
+.LBB2_170:
 	xor	esi, esi
-.LBB2_638:
-	mov	rax, rsi
-	not	rax
-	add	rax, r11
-	mov	rbx, r11
-	and	rbx, 3
-	je	.LBB2_640
-	.p2align	4, 0x90
-.LBB2_639:                              # =>This Inner Loop Header: Depth=1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm1
+.LBB2_717:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_719
+.LBB2_718:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_639
-.LBB2_640:
-	cmp	rax, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_641:                              # =>This Inner Loop Header: Depth=1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rsi + 4]
-	movss	dword ptr [r8 + 4*rsi + 4], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rsi + 8]
-	movss	dword ptr [r8 + 4*rsi + 8], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rsi + 12]
-	movss	dword ptr [r8 + 4*rsi + 12], xmm1
+	add	rdi, -1
+	jne	.LBB2_718
+.LBB2_719:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_720:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
-	cmp	r11, rsi
-	jne	.LBB2_641
-	jmp	.LBB2_13
-.LBB2_511:
+	cmp	r10, rsi
+	jne	.LBB2_720
+	jmp	.LBB2_737
+.LBB2_171:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.512:
-	mov	r14b, byte ptr [rdx]
+	jle	.LBB2_737
+# %bb.172:
+	mov	eax, dword ptr [rdx]
 	mov	r10d, r9d
-	cmp	r9d, 32
-	jb	.LBB2_513
-# %bb.542:
-	lea	rax, [rcx + r10]
-	cmp	rax, r8
-	jbe	.LBB2_572
-# %bb.543:
-	lea	rax, [r8 + r10]
-	cmp	rax, rcx
-	jbe	.LBB2_572
-.LBB2_513:
+	cmp	r9d, 8
+	jb	.LBB2_173
+# %bb.291:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_411
+# %bb.292:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_411
+.LBB2_173:
 	xor	esi, esi
-.LBB2_646:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_648
-	.p2align	4, 0x90
-.LBB2_647:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
+.LBB2_725:
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_727
+.LBB2_726:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_647
-.LBB2_648:
-	cmp	r11, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_649:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, r14d
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	mov	eax, r14d
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	mov	eax, r14d
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
+	add	rdi, -1
+	jne	.LBB2_726
+.LBB2_727:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_728:                              # =>This Inner Loop Header: Depth=1
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_649
-	jmp	.LBB2_13
-.LBB2_514:
+	jne	.LBB2_728
+	jmp	.LBB2_737
+.LBB2_174:
 	test	r9d, r9d
-	jle	.LBB2_517
-# %bb.515:
-	mov	r14d, dword ptr [rdx]
+	jle	.LBB2_737
+# %bb.175:
+	mov	r11d, dword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 8
-	jb	.LBB2_516
-# %bb.545:
-	lea	rax, [rcx + 4*r10]
-	cmp	rax, r8
-	jbe	.LBB2_575
-# %bb.546:
-	lea	rax, [r8 + 4*r10]
-	cmp	rax, rcx
-	jbe	.LBB2_575
-.LBB2_516:
+	jb	.LBB2_176
+# %bb.294:
+	lea	rdx, [rcx + 4*r10]
+	cmp	rdx, r8
+	jbe	.LBB2_414
+# %bb.295:
+	lea	rdx, [r8 + 4*r10]
+	cmp	rdx, rcx
+	jbe	.LBB2_414
+.LBB2_176:
 	xor	esi, esi
-.LBB2_654:
-	mov	r11, rsi
-	not	r11
-	add	r11, r10
-	mov	rbx, r10
-	and	rbx, 3
-	je	.LBB2_656
-	.p2align	4, 0x90
-.LBB2_655:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
+.LBB2_733:
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
+	mov	rdi, r10
+	and	rdi, 3
+	je	.LBB2_735
+.LBB2_734:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
 	sub	eax, dword ptr [rcx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
 	add	rsi, 1
-	add	rbx, -1
-	jne	.LBB2_655
-.LBB2_656:
-	cmp	r11, 3
-	jb	.LBB2_13
-	.p2align	4, 0x90
-.LBB2_657:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r14d
+	add	rdi, -1
+	jne	.LBB2_734
+.LBB2_735:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_736:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, r11d
 	sub	eax, dword ptr [rcx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r14d
+	mov	eax, r11d
 	sub	eax, dword ptr [rcx + 4*rsi + 4]
 	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r14d
+	mov	eax, r11d
 	sub	eax, dword ptr [rcx + 4*rsi + 8]
 	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r14d
+	mov	eax, r11d
 	sub	eax, dword ptr [rcx + 4*rsi + 12]
 	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB2_657
-	jmp	.LBB2_13
-.LBB2_517:
-	lea	rsp, [rbp - 16]
-	pop	rbx
-	pop	r14
-	pop	rbp
-	ret
-.LBB2_548:
+	jne	.LBB2_736
+	jmp	.LBB2_737
+.LBB2_297:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_417
+# %bb.298:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_299:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_299
+	jmp	.LBB2_418
+.LBB2_300:
 	mov	esi, r10d
 	and	esi, -8
-	movd	xmm0, r14d
+	movd	xmm0, r11d
 	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_578
-# %bb.549:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_550:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_425
+# %bb.301:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_302:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
 	movdqa	xmm3, xmm0
 	psubd	xmm3, xmm1
 	movdqa	xmm1, xmm0
 	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 48]
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
 	movdqa	xmm3, xmm0
 	psubd	xmm3, xmm1
 	movdqa	xmm1, xmm0
 	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm1
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB2_550
-	jmp	.LBB2_579
-.LBB2_551:
-	mov	esi, r11d
-	and	esi, -4
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_302
+	jmp	.LBB2_426
+.LBB2_303:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_433
+# %bb.304:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_305:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_305
+	jmp	.LBB2_434
+.LBB2_306:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r11d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_441
+# %bb.307:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_308:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_308
+	jmp	.LBB2_442
+.LBB2_309:
+	mov	edx, eax
+	and	edx, -4
 	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
-	lea	rax, [rsi - 4]
-	mov	r10, rax
-	shr	r10, 2
-	add	r10, 1
-	test	rax, rax
-	je	.LBB2_586
-# %bb.552:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_553:                              # =>This Inner Loop Header: Depth=1
-	movupd	xmm2, xmmword ptr [rcx + 8*rbx]
-	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 16]
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_449
+# %bb.310:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_311:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB2_311
+	jmp	.LBB2_450
+.LBB2_312:
+	mov	edx, eax
+	and	edx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_457
+# %bb.313:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_314:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
 	movapd	xmm4, xmm1
 	subpd	xmm4, xmm2
 	movapd	xmm2, xmm1
 	subpd	xmm2, xmm3
-	movupd	xmmword ptr [r8 + 8*rbx], xmm4
-	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rbx + 32]
-	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 48]
+	movupd	xmmword ptr [r8 + 8*rdi], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
 	movapd	xmm4, xmm1
 	subpd	xmm4, xmm2
 	movapd	xmm2, xmm1
 	subpd	xmm2, xmm3
-	movupd	xmmword ptr [r8 + 8*rbx + 32], xmm4
-	movupd	xmmword ptr [r8 + 8*rbx + 48], xmm2
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB2_553
-	jmp	.LBB2_587
-.LBB2_554:
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB2_314
+	jmp	.LBB2_458
+.LBB2_315:
+	mov	edx, eax
+	and	edx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_465
+# %bb.316:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_317:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB2_317
+	jmp	.LBB2_466
+.LBB2_318:
+	mov	edx, eax
+	and	edx, -4
+	movddup	xmm1, xmm0                      # xmm1 = xmm0[0,0]
+	lea	rsi, [rdx - 4]
+	mov	r9, rsi
+	shr	r9, 2
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_473
+# %bb.319:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_320:                              # =>This Inner Loop Header: Depth=1
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	movapd	xmm2, xmm1
+	subpd	xmm2, xmm3
+	movupd	xmmword ptr [r8 + 8*rdi], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	movapd	xmm2, xmm1
+	subpd	xmm2, xmm3
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rsi, 2
+	jne	.LBB2_320
+	jmp	.LBB2_474
+.LBB2_321:
 	mov	esi, r10d
 	and	esi, -32
-	movzx	eax, r14b
-	movd	xmm0, eax
-	xorpd	xmm1, xmm1
+	movzx	edx, al
+	movd	xmm0, edx
+	pxor	xmm1, xmm1
 	pshufb	xmm0, xmm1
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_594
-# %bb.555:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_556:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rbx]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_481
+# %bb.322:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_323:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_323
+	jmp	.LBB2_482
+.LBB2_324:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	edx, r11b
+	movd	xmm0, edx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_489
+# %bb.325:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_326:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_326
+	jmp	.LBB2_490
+.LBB2_327:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	edx, al
+	movd	xmm0, edx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_497
+# %bb.328:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_329:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_329
+	jmp	.LBB2_498
+.LBB2_330:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	edx, r11b
+	movd	xmm0, edx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_505
+# %bb.331:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_332:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
 	movdqa	xmm3, xmm0
 	psubb	xmm3, xmm1
 	movdqa	xmm1, xmm0
 	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rbx], xmm3
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 48]
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
 	movdqa	xmm3, xmm0
 	psubb	xmm3, xmm1
 	movdqa	xmm1, xmm0
 	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rbx + 32], xmm3
-	movdqu	xmmword ptr [r8 + rbx + 48], xmm1
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_556
-	jmp	.LBB2_595
-.LBB2_557:
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_332
+	jmp	.LBB2_506
+.LBB2_333:
 	mov	esi, r10d
 	and	esi, -4
-	movq	xmm0, r14
+	movq	xmm0, rax
 	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_602
-# %bb.558:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_559:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_513
+# %bb.334:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_335:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB2_335
+	jmp	.LBB2_514
+.LBB2_336:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r11
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_521
+# %bb.337:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_338:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
 	movdqa	xmm3, xmm0
 	psubq	xmm3, xmm1
 	movdqa	xmm1, xmm0
 	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 48]
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
 	movdqa	xmm3, xmm0
 	psubq	xmm3, xmm1
 	movdqa	xmm1, xmm0
 	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm1
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB2_559
-	jmp	.LBB2_603
-.LBB2_560:
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB2_338
+	jmp	.LBB2_522
+.LBB2_339:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_529
+# %bb.340:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_341:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB2_341
+	jmp	.LBB2_530
+.LBB2_342:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r11
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_537
+# %bb.343:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_344:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB2_344
+	jmp	.LBB2_538
+.LBB2_345:
 	mov	esi, r10d
 	and	esi, -16
-	movd	xmm0, r14d
+	movd	xmm0, eax
 	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
 	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_610
-# %bb.561:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_562:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_545
+# %bb.346:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_347:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_347
+	jmp	.LBB2_546
+.LBB2_348:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_553
+# %bb.349:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_350:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_350
+	jmp	.LBB2_554
+.LBB2_351:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_561
+# %bb.352:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_353:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_353
+	jmp	.LBB2_562
+.LBB2_354:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_569
+# %bb.355:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_356:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_356
+	jmp	.LBB2_570
+.LBB2_357:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_577
+# %bb.358:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_359:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_359
+	jmp	.LBB2_578
+.LBB2_360:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_585
+# %bb.361:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_362:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_362
+	jmp	.LBB2_586
+.LBB2_363:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_593
+# %bb.364:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_365:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_365
+	jmp	.LBB2_594
+.LBB2_366:
+	mov	esi, r10d
+	and	esi, -16
+	movd	xmm0, eax
+	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 16]
+	mov	r9, rdx
+	shr	r9, 4
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_601
+# %bb.367:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_368:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
 	movdqa	xmm3, xmm0
 	psubw	xmm3, xmm1
 	movdqa	xmm1, xmm0
 	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 48]
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
 	movdqa	xmm3, xmm0
 	psubw	xmm3, xmm1
 	movdqa	xmm1, xmm0
 	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm1
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB2_562
-	jmp	.LBB2_611
-.LBB2_563:
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	add	rdi, 32
+	add	rdx, 2
+	jne	.LBB2_368
+	jmp	.LBB2_602
+.LBB2_369:
 	mov	esi, r10d
-	and	esi, -16
-	movd	xmm0, r14d
-	pshuflw	xmm0, xmm0, 224                 # xmm0 = xmm0[0,0,2,3,4,5,6,7]
-	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 16]
-	mov	r11, rax
-	shr	r11, 4
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_618
-# %bb.564:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_565:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	and	esi, -4
+	movq	xmm0, rax
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_609
+# %bb.370:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_371:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB2_371
+	jmp	.LBB2_610
+.LBB2_372:
+	mov	edx, eax
+	and	edx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_617
+# %bb.373:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_374:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB2_374
+	jmp	.LBB2_618
+.LBB2_375:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r11
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_625
+# %bb.376:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_377:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
 	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
+	psubq	xmm3, xmm1
 	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 48]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
 	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
+	psubq	xmm3, xmm1
 	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rbx + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rbx + 48], xmm1
-	add	rbx, 32
-	add	rax, 2
-	jne	.LBB2_565
-	jmp	.LBB2_619
-.LBB2_566:
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB2_377
+	jmp	.LBB2_626
+.LBB2_378:
+	mov	edx, eax
+	and	edx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_633
+# %bb.379:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_380:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	movaps	xmm2, xmm1
+	subps	xmm2, xmm3
+	movups	xmmword ptr [r8 + 4*rdi], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	movaps	xmm2, xmm1
+	subps	xmm2, xmm3
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB2_380
+	jmp	.LBB2_634
+.LBB2_381:
 	mov	esi, r10d
 	and	esi, -4
-	movq	xmm0, r14
+	movq	xmm0, rax
 	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
-	lea	rax, [rsi - 4]
-	mov	r11, rax
-	shr	r11, 2
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_626
-# %bb.567:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_568:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_641
+# %bb.382:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_383:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB2_383
+	jmp	.LBB2_642
+.LBB2_384:
+	mov	edx, eax
+	and	edx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_649
+# %bb.385:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_386:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB2_386
+	jmp	.LBB2_650
+.LBB2_387:
+	mov	esi, r10d
+	and	esi, -4
+	movq	xmm0, r11
+	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
+	lea	rdx, [rsi - 4]
+	mov	r9, rdx
+	shr	r9, 2
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_657
+# %bb.388:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_389:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
 	movdqa	xmm3, xmm0
 	psubq	xmm3, xmm1
 	movdqa	xmm1, xmm0
 	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 48]
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	add	rdi, 8
+	add	rdx, 2
+	jne	.LBB2_389
+	jmp	.LBB2_658
+.LBB2_390:
+	mov	edx, eax
+	and	edx, -8
+	movaps	xmm1, xmm0
+	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
+	lea	rsi, [rdx - 8]
+	mov	r9, rsi
+	shr	r9, 3
+	add	r9, 1
+	test	rsi, rsi
+	je	.LBB2_665
+# %bb.391:
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
+.LBB2_392:                              # =>This Inner Loop Header: Depth=1
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	movaps	xmm2, xmm1
+	subps	xmm2, xmm3
+	movups	xmmword ptr [r8 + 4*rdi], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	movaps	xmm2, xmm1
+	subps	xmm2, xmm3
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rsi, 2
+	jne	.LBB2_392
+	jmp	.LBB2_666
+.LBB2_393:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	edx, al
+	movd	xmm0, edx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_673
+# %bb.394:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_395:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_395
+	jmp	.LBB2_674
+.LBB2_396:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	edx, r11b
+	movd	xmm0, edx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_681
+# %bb.397:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_398:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
 	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
+	psubb	xmm3, xmm1
 	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rbx + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rbx + 48], xmm1
-	add	rbx, 8
-	add	rax, 2
-	jne	.LBB2_568
-	jmp	.LBB2_627
-.LBB2_569:
-	mov	esi, r11d
-	and	esi, -8
-	movaps	xmm1, xmm0
-	shufps	xmm1, xmm0, 0                   # xmm1 = xmm1[0,0],xmm0[0,0]
-	lea	rax, [rsi - 8]
-	mov	r10, rax
-	shr	r10, 3
-	add	r10, 1
-	test	rax, rax
-	je	.LBB2_634
-# %bb.570:
-	mov	rax, r10
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_571:                              # =>This Inner Loop Header: Depth=1
-	movups	xmm2, xmmword ptr [rcx + 4*rbx]
-	movups	xmm3, xmmword ptr [rcx + 4*rbx + 16]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	movaps	xmm2, xmm1
-	subps	xmm2, xmm3
-	movups	xmmword ptr [r8 + 4*rbx], xmm4
-	movups	xmmword ptr [r8 + 4*rbx + 16], xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rbx + 32]
-	movups	xmm3, xmmword ptr [rcx + 4*rbx + 48]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	movaps	xmm2, xmm1
-	subps	xmm2, xmm3
-	movups	xmmword ptr [r8 + 4*rbx + 32], xmm4
-	movups	xmmword ptr [r8 + 4*rbx + 48], xmm2
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB2_571
-	jmp	.LBB2_635
-.LBB2_572:
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_398
+	jmp	.LBB2_682
+.LBB2_399:
 	mov	esi, r10d
 	and	esi, -32
-	movzx	eax, r14b
-	movd	xmm0, eax
-	xorpd	xmm1, xmm1
+	movzx	edx, al
+	movd	xmm0, edx
+	pxor	xmm1, xmm1
 	pshufb	xmm0, xmm1
-	lea	rax, [rsi - 32]
-	mov	r11, rax
-	shr	r11, 5
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_642
-# %bb.573:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_574:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + rbx]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_689
+# %bb.400:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_401:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_401
+	jmp	.LBB2_690
+.LBB2_402:
+	mov	esi, r10d
+	and	esi, -32
+	movzx	edx, r11b
+	movd	xmm0, edx
+	pxor	xmm1, xmm1
+	pshufb	xmm0, xmm1
+	lea	rdx, [rsi - 32]
+	mov	r9, rdx
+	shr	r9, 5
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_697
+# %bb.403:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_404:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
 	movdqa	xmm3, xmm0
 	psubb	xmm3, xmm1
 	movdqa	xmm1, xmm0
 	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rbx], xmm3
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 48]
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
 	movdqa	xmm3, xmm0
 	psubb	xmm3, xmm1
 	movdqa	xmm1, xmm0
 	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rbx + 32], xmm3
-	movdqu	xmmword ptr [r8 + rbx + 48], xmm1
-	add	rbx, 64
-	add	rax, 2
-	jne	.LBB2_574
-	jmp	.LBB2_643
-.LBB2_575:
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	add	rdi, 64
+	add	rdx, 2
+	jne	.LBB2_404
+	jmp	.LBB2_698
+.LBB2_405:
 	mov	esi, r10d
 	and	esi, -8
-	movd	xmm0, r14d
+	movd	xmm0, eax
 	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
-	lea	rax, [rsi - 8]
-	mov	r11, rax
-	shr	r11, 3
-	add	r11, 1
-	test	rax, rax
-	je	.LBB2_650
-# %bb.576:
-	mov	rax, r11
-	and	rax, -2
-	neg	rax
-	xor	ebx, ebx
-.LBB2_577:                              # =>This Inner Loop Header: Depth=1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_705
+# %bb.406:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_407:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_407
+	jmp	.LBB2_706
+.LBB2_408:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r11d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_713
+# %bb.409:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_410:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
 	movdqa	xmm3, xmm0
 	psubd	xmm3, xmm1
 	movdqa	xmm1, xmm0
 	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm1
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx + 32]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 48]
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
 	movdqa	xmm3, xmm0
 	psubd	xmm3, xmm1
 	movdqa	xmm1, xmm0
 	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rbx + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rbx + 48], xmm1
-	add	rbx, 16
-	add	rax, 2
-	jne	.LBB2_577
-	jmp	.LBB2_651
-.LBB2_578:
-	xor	ebx, ebx
-.LBB2_579:
-	test	r11b, 1
-	je	.LBB2_581
-# %bb.580:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_410
+	jmp	.LBB2_714
+.LBB2_411:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, eax
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_721
+# %bb.412:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_413:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_413
+	jmp	.LBB2_722
+.LBB2_414:
+	mov	esi, r10d
+	and	esi, -8
+	movd	xmm0, r11d
+	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
+	lea	rdx, [rsi - 8]
+	mov	r9, rdx
+	shr	r9, 3
+	add	r9, 1
+	test	rdx, rdx
+	je	.LBB2_729
+# %bb.415:
+	mov	rdx, r9
+	and	rdx, -2
+	neg	rdx
+	xor	edi, edi
+.LBB2_416:                              # =>This Inner Loop Header: Depth=1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	add	rdi, 16
+	add	rdx, 2
+	jne	.LBB2_416
+	jmp	.LBB2_730
+.LBB2_417:
+	xor	edi, edi
+.LBB2_418:
+	test	r9b, 1
+	je	.LBB2_420
+# %bb.419:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB2_420:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_421
+.LBB2_425:
+	xor	edi, edi
+.LBB2_426:
+	test	r9b, 1
+	je	.LBB2_428
+# %bb.427:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
 	movdqa	xmm3, xmm0
 	psubd	xmm3, xmm1
 	psubd	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm0
-.LBB2_581:
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB2_428:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_429
+.LBB2_433:
+	xor	edi, edi
+.LBB2_434:
+	test	r9b, 1
+	je	.LBB2_436
+# %bb.435:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB2_436:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_437
+.LBB2_441:
+	xor	edi, edi
+.LBB2_442:
+	test	r9b, 1
+	je	.LBB2_444
+# %bb.443:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	psubd	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB2_444:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_445
+.LBB2_449:
+	xor	edi, edi
+.LBB2_450:
+	test	r9b, 1
+	je	.LBB2_452
+# %bb.451:
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+.LBB2_452:
+	cmp	rdx, rax
+	je	.LBB2_737
+	jmp	.LBB2_453
+.LBB2_457:
+	xor	edi, edi
+.LBB2_458:
+	test	r9b, 1
+	je	.LBB2_460
+# %bb.459:
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	subpd	xmm1, xmm3
+	movupd	xmmword ptr [r8 + 8*rdi], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB2_460:
+	cmp	rdx, rax
+	je	.LBB2_737
+	jmp	.LBB2_461
+.LBB2_465:
+	xor	edi, edi
+.LBB2_466:
+	test	r9b, 1
+	je	.LBB2_468
+# %bb.467:
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+.LBB2_468:
+	cmp	rdx, rax
+	je	.LBB2_737
+	jmp	.LBB2_469
+.LBB2_473:
+	xor	edi, edi
+.LBB2_474:
+	test	r9b, 1
+	je	.LBB2_476
+# %bb.475:
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
+	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	subpd	xmm1, xmm3
+	movupd	xmmword ptr [r8 + 8*rdi], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB2_476:
+	cmp	rdx, rax
+	je	.LBB2_737
+	jmp	.LBB2_477
+.LBB2_481:
+	xor	edi, edi
+.LBB2_482:
+	test	r9b, 1
+	je	.LBB2_484
+# %bb.483:
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB2_484:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_485
+.LBB2_489:
+	xor	edi, edi
+.LBB2_490:
+	test	r9b, 1
+	je	.LBB2_492
+# %bb.491:
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	psubb	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB2_492:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_493
+.LBB2_497:
+	xor	edi, edi
+.LBB2_498:
+	test	r9b, 1
+	je	.LBB2_500
+# %bb.499:
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB2_500:
 	cmp	rsi, r10
-	je	.LBB2_13
-	jmp	.LBB2_582
-.LBB2_586:
-	xor	ebx, ebx
-.LBB2_587:
-	test	r10b, 1
-	je	.LBB2_589
-# %bb.588:
-	movupd	xmm2, xmmword ptr [rcx + 8*rbx]
-	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 16]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	subpd	xmm1, xmm3
-	movupd	xmmword ptr [r8 + 8*rbx], xmm4
-	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm1
-.LBB2_589:
-	cmp	rsi, r11
-	je	.LBB2_13
-	jmp	.LBB2_590
-.LBB2_594:
-	xor	ebx, ebx
-.LBB2_595:
-	test	r11b, 1
-	je	.LBB2_597
-# %bb.596:
-	movdqu	xmm1, xmmword ptr [rcx + rbx]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	je	.LBB2_737
+	jmp	.LBB2_501
+.LBB2_505:
+	xor	edi, edi
+.LBB2_506:
+	test	r9b, 1
+	je	.LBB2_508
+# %bb.507:
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
 	movdqa	xmm3, xmm0
 	psubb	xmm3, xmm1
 	psubb	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + rbx], xmm3
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm0
-.LBB2_597:
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB2_508:
 	cmp	rsi, r10
-	je	.LBB2_13
-	jmp	.LBB2_598
-.LBB2_602:
-	xor	ebx, ebx
-.LBB2_603:
-	test	r11b, 1
-	je	.LBB2_605
-# %bb.604:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	je	.LBB2_737
+	jmp	.LBB2_509
+.LBB2_513:
+	xor	edi, edi
+.LBB2_514:
+	test	r9b, 1
+	je	.LBB2_516
+# %bb.515:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB2_516:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_517
+.LBB2_521:
+	xor	edi, edi
+.LBB2_522:
+	test	r9b, 1
+	je	.LBB2_524
+# %bb.523:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
 	movdqa	xmm3, xmm0
 	psubq	xmm3, xmm1
 	psubq	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm0
-.LBB2_605:
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB2_524:
 	cmp	rsi, r10
-	je	.LBB2_13
-	jmp	.LBB2_606
-.LBB2_610:
-	xor	ebx, ebx
-.LBB2_611:
-	test	r11b, 1
-	je	.LBB2_613
-# %bb.612:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	je	.LBB2_737
+	jmp	.LBB2_525
+.LBB2_529:
+	xor	edi, edi
+.LBB2_530:
+	test	r9b, 1
+	je	.LBB2_532
+# %bb.531:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB2_532:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_533
+.LBB2_537:
+	xor	edi, edi
+.LBB2_538:
+	test	r9b, 1
+	je	.LBB2_540
+# %bb.539:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	psubq	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB2_540:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_541
+.LBB2_545:
+	xor	edi, edi
+.LBB2_546:
+	test	r9b, 1
+	je	.LBB2_548
+# %bb.547:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB2_548:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_549
+.LBB2_553:
+	xor	edi, edi
+.LBB2_554:
+	test	r9b, 1
+	je	.LBB2_556
+# %bb.555:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB2_556:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_557
+.LBB2_561:
+	xor	edi, edi
+.LBB2_562:
+	test	r9b, 1
+	je	.LBB2_564
+# %bb.563:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
 	movdqa	xmm3, xmm0
 	psubw	xmm3, xmm1
 	psubw	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm0
-.LBB2_613:
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB2_564:
 	cmp	rsi, r10
-	je	.LBB2_13
-	jmp	.LBB2_614
-.LBB2_618:
-	xor	ebx, ebx
-.LBB2_619:
-	test	r11b, 1
-	je	.LBB2_621
-# %bb.620:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
+	je	.LBB2_737
+	jmp	.LBB2_565
+.LBB2_569:
+	xor	edi, edi
+.LBB2_570:
+	test	r9b, 1
+	je	.LBB2_572
+# %bb.571:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
 	movdqa	xmm3, xmm0
 	psubw	xmm3, xmm1
 	psubw	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm0
-.LBB2_621:
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB2_572:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_573
+.LBB2_577:
+	xor	edi, edi
+.LBB2_578:
+	test	r9b, 1
+	je	.LBB2_580
+# %bb.579:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB2_580:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_581
+.LBB2_585:
+	xor	edi, edi
+.LBB2_586:
+	test	r9b, 1
+	je	.LBB2_588
+# %bb.587:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+.LBB2_588:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_589
+.LBB2_593:
+	xor	edi, edi
+.LBB2_594:
+	test	r9b, 1
+	je	.LBB2_596
+# %bb.595:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	psubw	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB2_596:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_597
+.LBB2_601:
+	xor	edi, edi
+.LBB2_602:
+	test	r9b, 1
+	je	.LBB2_604
+# %bb.603:
+	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	psubw	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB2_604:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_605
+.LBB2_609:
+	xor	edi, edi
+.LBB2_610:
+	test	r9b, 1
+	je	.LBB2_612
+# %bb.611:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB2_612:
 	cmp	rsi, r10
-	je	.LBB2_13
-	jmp	.LBB2_622
+	je	.LBB2_737
+	jmp	.LBB2_613
+.LBB2_617:
+	xor	edi, edi
+.LBB2_618:
+	test	r9b, 1
+	je	.LBB2_620
+# %bb.619:
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+.LBB2_620:
+	cmp	rdx, rax
+	je	.LBB2_737
+	jmp	.LBB2_621
+.LBB2_625:
+	xor	edi, edi
 .LBB2_626:
-	xor	ebx, ebx
-.LBB2_627:
-	test	r11b, 1
-	je	.LBB2_629
-# %bb.628:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
+	test	r9b, 1
+	je	.LBB2_628
+# %bb.627:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
 	movdqa	xmm3, xmm0
 	psubq	xmm3, xmm1
 	psubq	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm0
-.LBB2_629:
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB2_628:
 	cmp	rsi, r10
-	je	.LBB2_13
-	jmp	.LBB2_630
+	je	.LBB2_737
+	jmp	.LBB2_629
+.LBB2_633:
+	xor	edi, edi
 .LBB2_634:
-	xor	ebx, ebx
-.LBB2_635:
-	test	r10b, 1
-	je	.LBB2_637
-# %bb.636:
-	movups	xmm2, xmmword ptr [rcx + 4*rbx]
-	movups	xmm3, xmmword ptr [rcx + 4*rbx + 16]
+	test	r9b, 1
+	je	.LBB2_636
+# %bb.635:
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
 	movaps	xmm4, xmm1
 	subps	xmm4, xmm2
 	subps	xmm1, xmm3
-	movups	xmmword ptr [r8 + 4*rbx], xmm4
-	movups	xmmword ptr [r8 + 4*rbx + 16], xmm1
-.LBB2_637:
-	cmp	rsi, r11
-	je	.LBB2_13
-	jmp	.LBB2_638
+	movups	xmmword ptr [r8 + 4*rdi], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB2_636:
+	cmp	rdx, rax
+	je	.LBB2_737
+	jmp	.LBB2_637
+.LBB2_641:
+	xor	edi, edi
 .LBB2_642:
-	xor	ebx, ebx
-.LBB2_643:
-	test	r11b, 1
-	je	.LBB2_645
-# %bb.644:
-	movdqu	xmm1, xmmword ptr [rcx + rbx]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	psubb	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + rbx], xmm3
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm0
-.LBB2_645:
+	test	r9b, 1
+	je	.LBB2_644
+# %bb.643:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+.LBB2_644:
 	cmp	rsi, r10
-	je	.LBB2_13
-	jmp	.LBB2_646
+	je	.LBB2_737
+	jmp	.LBB2_645
+.LBB2_649:
+	xor	edi, edi
 .LBB2_650:
-	xor	ebx, ebx
-.LBB2_651:
-	test	r11b, 1
-	je	.LBB2_653
-# %bb.652:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	psubd	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm3
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm0
-.LBB2_653:
-	cmp	rsi, r10
-	je	.LBB2_13
-	jmp	.LBB2_654
+	test	r9b, 1
+	je	.LBB2_652
+# %bb.651:
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+.LBB2_652:
+	cmp	rdx, rax
+	je	.LBB2_737
+	jmp	.LBB2_653
+.LBB2_657:
+	xor	edi, edi
 .LBB2_658:
-	xor	ebx, ebx
-.LBB2_659:
-	test	r11b, 1
-	je	.LBB2_661
-# %bb.660:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-.LBB2_661:
+	test	r9b, 1
+	je	.LBB2_660
+# %bb.659:
+	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	psubq	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB2_660:
 	cmp	rsi, r10
-	je	.LBB2_3
-	jmp	.LBB2_662
+	je	.LBB2_737
+	jmp	.LBB2_661
+.LBB2_665:
+	xor	edi, edi
 .LBB2_666:
-	xor	ebx, ebx
-.LBB2_667:
-	test	r10b, 1
-	je	.LBB2_669
-# %bb.668:
-	movupd	xmm2, xmmword ptr [rcx + 8*rbx]
-	movupd	xmm3, xmmword ptr [rcx + 8*rbx + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rbx], xmm2
-	movupd	xmmword ptr [r8 + 8*rbx + 16], xmm3
-.LBB2_669:
-	cmp	rsi, r11
-	je	.LBB2_3
-	jmp	.LBB2_670
+	test	r9b, 1
+	je	.LBB2_668
+# %bb.667:
+	movups	xmm2, xmmword ptr [rcx + 4*rdi]
+	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	subps	xmm1, xmm3
+	movups	xmmword ptr [r8 + 4*rdi], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB2_668:
+	cmp	rdx, rax
+	je	.LBB2_737
+	jmp	.LBB2_669
+.LBB2_673:
+	xor	edi, edi
 .LBB2_674:
-	xor	ebx, ebx
-.LBB2_675:
-	test	r11b, 1
-	je	.LBB2_677
-# %bb.676:
-	movdqu	xmm1, xmmword ptr [rcx + rbx]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
+	test	r9b, 1
+	je	.LBB2_676
+# %bb.675:
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
 	paddb	xmm1, xmm0
 	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-.LBB2_677:
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB2_676:
 	cmp	rsi, r10
-	je	.LBB2_3
-	jmp	.LBB2_678
+	je	.LBB2_737
+	jmp	.LBB2_677
+.LBB2_681:
+	xor	edi, edi
 .LBB2_682:
-	xor	ebx, ebx
-.LBB2_683:
-	test	r11b, 1
-	je	.LBB2_685
-# %bb.684:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-.LBB2_685:
+	test	r9b, 1
+	je	.LBB2_684
+# %bb.683:
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	psubb	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB2_684:
 	cmp	rsi, r10
-	je	.LBB2_3
-	jmp	.LBB2_686
+	je	.LBB2_737
+	jmp	.LBB2_685
+.LBB2_689:
+	xor	edi, edi
 .LBB2_690:
-	xor	ebx, ebx
-.LBB2_691:
-	test	r11b, 1
-	je	.LBB2_693
-# %bb.692:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-.LBB2_693:
+	test	r9b, 1
+	je	.LBB2_692
+# %bb.691:
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+.LBB2_692:
 	cmp	rsi, r10
-	je	.LBB2_3
-	jmp	.LBB2_694
+	je	.LBB2_737
+	jmp	.LBB2_693
+.LBB2_697:
+	xor	edi, edi
 .LBB2_698:
-	xor	ebx, ebx
-.LBB2_699:
-	test	r11b, 1
-	je	.LBB2_701
-# %bb.700:
-	movdqu	xmm1, xmmword ptr [rcx + 2*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 2*rbx + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 2*rbx + 16], xmm2
-.LBB2_701:
+	test	r9b, 1
+	je	.LBB2_700
+# %bb.699:
+	movdqu	xmm1, xmmword ptr [rcx + rdi]
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	psubb	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB2_700:
 	cmp	rsi, r10
-	je	.LBB2_3
-	jmp	.LBB2_702
+	je	.LBB2_737
+	jmp	.LBB2_701
+.LBB2_705:
+	xor	edi, edi
 .LBB2_706:
-	xor	ebx, ebx
-.LBB2_707:
-	test	r11b, 1
-	je	.LBB2_709
-# %bb.708:
-	movdqu	xmm1, xmmword ptr [rcx + 8*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rbx + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 8*rbx + 16], xmm2
-.LBB2_709:
+	test	r9b, 1
+	je	.LBB2_708
+# %bb.707:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB2_708:
 	cmp	rsi, r10
-	je	.LBB2_3
-	jmp	.LBB2_710
+	je	.LBB2_737
+	jmp	.LBB2_709
+.LBB2_713:
+	xor	edi, edi
 .LBB2_714:
-	xor	ebx, ebx
-.LBB2_715:
-	test	r10b, 1
-	je	.LBB2_717
-# %bb.716:
-	movups	xmm2, xmmword ptr [rcx + 4*rbx]
-	movups	xmm3, xmmword ptr [rcx + 4*rbx + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rbx], xmm2
-	movups	xmmword ptr [r8 + 4*rbx + 16], xmm3
-.LBB2_717:
-	cmp	rsi, r11
-	je	.LBB2_3
-	jmp	.LBB2_718
-.LBB2_722:
-	xor	ebx, ebx
-.LBB2_723:
-	test	r11b, 1
-	je	.LBB2_725
-# %bb.724:
-	movdqu	xmm1, xmmword ptr [rcx + rbx]
-	movdqu	xmm2, xmmword ptr [rcx + rbx + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rbx], xmm1
-	movdqu	xmmword ptr [r8 + rbx + 16], xmm2
-.LBB2_725:
+	test	r9b, 1
+	je	.LBB2_716
+# %bb.715:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	psubd	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB2_716:
 	cmp	rsi, r10
-	je	.LBB2_3
-	jmp	.LBB2_726
-.LBB2_730:
-	xor	ebx, ebx
-.LBB2_731:
-	test	r11b, 1
-	je	.LBB2_733
-# %bb.732:
-	movdqu	xmm1, xmmword ptr [rcx + 4*rbx]
-	movdqu	xmm2, xmmword ptr [rcx + 4*rbx + 16]
+	je	.LBB2_737
+	jmp	.LBB2_717
+.LBB2_721:
+	xor	edi, edi
+.LBB2_722:
+	test	r9b, 1
+	je	.LBB2_724
+# %bb.723:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
 	paddd	xmm1, xmm0
 	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rbx], xmm1
-	movdqu	xmmword ptr [r8 + 4*rbx + 16], xmm2
-.LBB2_733:
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+.LBB2_724:
+	cmp	rsi, r10
+	je	.LBB2_737
+	jmp	.LBB2_725
+.LBB2_729:
+	xor	edi, edi
+.LBB2_730:
+	test	r9b, 1
+	je	.LBB2_732
+# %bb.731:
+	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	psubd	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB2_732:
 	cmp	rsi, r10
-	je	.LBB2_3
-	jmp	.LBB2_734
+	jne	.LBB2_733
+.LBB2_737:
+	mov	rsp, rbp
+	pop	rbp
+	ret
 .Lfunc_end2:
 	.size	arithmetic_scalar_arr_sse4, .Lfunc_end2-arithmetic_scalar_arr_sse4
                                         # -- End function
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s b/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s
index e4b341d2e97..19dc2ad03e8 100644
--- a/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s
+++ b/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s
@@ -11,79 +11,38 @@ TEXT ·_arithmetic_avx2(SB), $0-48
 	MOVQ len+40(FP), R9
 
 	LONG $0x01fe8040         // cmp    sil, 1
-	JG   LBB0_3
+	JG   LBB0_10
 	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB0_5
+	JE   LBB0_19
 	LONG $0x01fe8040         // cmp    sil, 1
 	JNE  LBB0_537
-
-LBB0_138:
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_151
+	JG   LBB0_158
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_140
+	JLE  LBB0_5
 	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_184
+	JE   LBB0_191
 	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_196
+	JE   LBB0_203
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_271
+	JNE  LBB0_537
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_208
+	JAE  LBB0_215
 	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_220
 
-LBB0_213:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_215
-
-LBB0_214:
-	WORD $0x1c8b; BYTE $0xb1 // mov    ebx, dword [rcx + 4*rsi]
-	WORD $0x1c03; BYTE $0xb2 // add    ebx, dword [rdx + 4*rsi]
-	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_214
-
-LBB0_215:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_271
-
-LBB0_216:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_216
-	JMP  LBB0_271
-
-LBB0_3:
-	LONG $0x02fe8040 // cmp    sil, 2
-	JE   LBB0_271
-	LONG $0x03fe8040 // cmp    sil, 3
+LBB0_10:
+	LONG $0x02fe8040         // cmp    sil, 2
+	JE   LBB0_278
+	LONG $0x03fe8040         // cmp    sil, 3
 	JNE  LBB0_537
-
-LBB0_404:
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
 	JG   LBB0_417
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_406
+	JLE  LBB0_14
 	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
 	JE   LBB0_450
 	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
@@ -98,114 +57,126 @@ LBB0_404:
 	WORD $0xf631             // xor    esi, esi
 	JMP  LBB0_479
 
-LBB0_417:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_418
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_504
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_516
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+LBB0_19:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_32
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_21
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_65
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_77
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
 	JNE  LBB0_537
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_528
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_89
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_533
+	JMP  LBB0_94
 
-LBB0_5:
+LBB0_278:
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_18
+	JG   LBB0_291
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_7
+	JLE  LBB0_280
 	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_51
+	JE   LBB0_324
 	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_63
+	JE   LBB0_336
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_138
+	JNE  LBB0_537
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_75
+	JAE  LBB0_348
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_80
+	JMP  LBB0_353
 
-LBB0_151:
+LBB0_158:
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_152
+	JLE  LBB0_159
 	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_238
+	JE   LBB0_245
 	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_250
+	JE   LBB0_257
 	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_271
+	JNE  LBB0_537
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_262
+	JAE  LBB0_269
 	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_274
 
-LBB0_267:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_269
-
-LBB0_268:
-	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0458fbc5; BYTE $0xf2   // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_268
-
-LBB0_269:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_271
+LBB0_417:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_418
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_504
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_516
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_537
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_528
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_533
 
-LBB0_270:
-	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0458fbc5; BYTE $0xf2               // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x4458fbc5; WORD $0x08f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x4458fbc5; WORD $0x10f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x4458fbc5; WORD $0x18f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB0_270
-	JMP  LBB0_271
+LBB0_32:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_33
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_119
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_131
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_537
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_143
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_148
 
-LBB0_18:
+LBB0_291:
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_19
+	JLE  LBB0_292
 	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_105
+	JE   LBB0_378
 	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_117
+	JE   LBB0_390
 	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_138
+	JNE  LBB0_537
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_129
+	JAE  LBB0_402
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_134
+	JMP  LBB0_407
+
+LBB0_5:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB0_170
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB0_537
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_182
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_187
 
-LBB0_406:
+LBB0_14:
 	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
 	JE   LBB0_429
 	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
@@ -218,6 +189,45 @@ LBB0_406:
 	WORD $0xf631                               // xor    esi, esi
 	JMP  LBB0_446
 
+LBB0_21:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB0_44
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB0_537
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_56
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_61
+
+LBB0_280:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB0_303
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB0_537
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_315
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_320
+
+LBB0_159:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_224
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_537
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_236
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_241
+
 LBB0_418:
 	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
 	JE   LBB0_483
@@ -231,105 +241,49 @@ LBB0_418:
 	WORD $0xf631             // xor    esi, esi
 	JMP  LBB0_500
 
-LBB0_140:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB0_163
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB0_271
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+LBB0_33:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_98
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_537
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb                   // mov    r11d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_175
-	WORD $0xf631                               // xor    esi, esi
-
-LBB0_180:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_182
-
-LBB0_181:
-	LONG $0x311cb60f         // movzx    ebx, byte [rcx + rsi]
-	WORD $0x1c02; BYTE $0x32 // add    bl, byte [rdx + rsi]
-	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_181
-
-LBB0_182:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_271
-
-LBB0_183:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_183
-	JMP  LBB0_271
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_110
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_115
 
-LBB0_152:
+LBB0_292:
 	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_217
+	JE   LBB0_357
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_271
+	JNE  LBB0_537
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_229
+	JAE  LBB0_369
 	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_374
 
-LBB0_234:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_236
-
-LBB0_235:
-	LONG $0xf11c8b48 // mov    rbx, qword [rcx + 8*rsi]
-	LONG $0xf21c0348 // add    rbx, qword [rdx + 8*rsi]
-	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_235
-
-LBB0_236:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_271
+LBB0_191:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_194
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_199
 
-LBB0_237:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_237
-	JMP  LBB0_271
+LBB0_203:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_206
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_211
 
 LBB0_450:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
@@ -349,327 +303,247 @@ LBB0_462:
 	WORD $0xf631             // xor    esi, esi
 	JMP  LBB0_470
 
-LBB0_504:
+LBB0_65:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_507
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_68
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_512
+	JMP  LBB0_73
 
-LBB0_516:
+LBB0_77:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_519
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_80
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_524
-
-LBB0_429:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_432
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_437
+	JMP  LBB0_85
 
-LBB0_483:
+LBB0_324:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_486
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_327
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_491
+	JMP  LBB0_332
 
-LBB0_7:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB0_30
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB0_138
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+LBB0_336:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb                   // mov    r11d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_42
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_47
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x40f98341         // cmp    r9d, 64
+	JAE  LBB0_339
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_344
 
-LBB0_19:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_84
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_138
+LBB0_245:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_96
+	JAE  LBB0_248
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_101
+	JMP  LBB0_253
 
-LBB0_184:
+LBB0_257:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_187
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_260
 	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_265
 
-LBB0_192:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_194
-
-LBB0_193:
-	LONG $0x711cb70f             // movzx    ebx, word [rcx + 2*rsi]
-	LONG $0x721c0366             // add    bx, word [rdx + 2*rsi]
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_193
-
-LBB0_194:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_271
-
-LBB0_195:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
-	JNE  LBB0_195
-	JMP  LBB0_271
-
-LBB0_196:
+LBB0_504:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_199
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_507
 	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_512
 
-LBB0_204:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_206
-
-LBB0_205:
-	LONG $0x711cb70f             // movzx    ebx, word [rcx + 2*rsi]
-	LONG $0x721c0366             // add    bx, word [rdx + 2*rsi]
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_205
-
-LBB0_206:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_271
-
-LBB0_207:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
-	JNE  LBB0_207
-	JMP  LBB0_271
+LBB0_516:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_519
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_524
 
-LBB0_238:
+LBB0_119:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_241
+	JAE  LBB0_122
 	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_127
 
-LBB0_246:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_248
-
-LBB0_247:
-	LONG $0xf11c8b48 // mov    rbx, qword [rcx + 8*rsi]
-	LONG $0xf21c0348 // add    rbx, qword [rdx + 8*rsi]
-	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_247
-
-LBB0_248:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_271
-
-LBB0_249:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_249
-	JMP  LBB0_271
-
-LBB0_250:
+LBB0_131:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_253
+	JAE  LBB0_134
 	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_139
 
-LBB0_258:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_260
+LBB0_378:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_381
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_386
 
-LBB0_259:
-	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0458fac5; BYTE $0xb2   // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_259
+LBB0_390:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_393
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_398
 
-LBB0_260:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_271
+LBB0_170:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_173
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_178
 
-LBB0_261:
-	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0458fac5; BYTE $0xb2               // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x4458fac5; WORD $0x04b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x4458fac5; WORD $0x08b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x4458fac5; WORD $0x0cb2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB0_261
-	JMP  LBB0_271
+LBB0_429:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_432
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_437
 
-LBB0_163:
+LBB0_44:
 	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
 	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb                   // mov    r11d, r9d
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
 	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_166
+	JAE  LBB0_47
 	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_52
 
-LBB0_171:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_173
+LBB0_303:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JAE  LBB0_306
+	WORD $0xf631                               // xor    esi, esi
+	JMP  LBB0_311
 
-LBB0_172:
-	LONG $0x311cb60f         // movzx    ebx, byte [rcx + rsi]
-	WORD $0x1c02; BYTE $0x32 // add    bl, byte [rdx + rsi]
-	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_172
+LBB0_224:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_227
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_232
 
-LBB0_173:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_271
+LBB0_483:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_486
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_491
 
-LBB0_174:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_174
-	JMP  LBB0_271
+LBB0_98:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_537
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_101
+	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_106
 
-LBB0_217:
+LBB0_357:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_220
+	JAE  LBB0_360
 	WORD $0xf631             // xor    esi, esi
+	JMP  LBB0_365
 
-LBB0_225:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+LBB0_215:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_220
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_220
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_218:
+	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_218
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_220:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_227
+	JE   LBB0_222
 
-LBB0_226:
-	WORD $0x1c8b; BYTE $0xb1 // mov    ebx, dword [rcx + 4*rsi]
-	WORD $0x1c03; BYTE $0xb2 // add    ebx, dword [rdx + 4*rsi]
-	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+LBB0_221:
+	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
+	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_226
+	JNE  LBB0_221
 
-LBB0_227:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_271
+LBB0_222:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB0_228:
+LBB0_223:
 	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
 	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
 	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
@@ -683,63 +557,9 @@ LBB0_228:
 	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
 	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_228
-	JMP  LBB0_271
-
-LBB0_51:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_54
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_59
-
-LBB0_63:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_66
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_71
-
-LBB0_105:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_108
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_113
-
-LBB0_117:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_120
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_125
-
-LBB0_30:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb                   // mov    r11d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_33
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_38
-
-LBB0_84:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_87
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_92
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_223
+	JMP  LBB0_537
 
 LBB0_474:
 	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
@@ -748,13 +568,13 @@ LBB0_474:
 	LONG $0xd1970f41         // seta    r9b
 	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
 	JNE  LBB0_479
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
 	JNE  LBB0_479
@@ -782,23 +602,23 @@ LBB0_477:
 	JE   LBB0_537
 
 LBB0_479:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
 	JE   LBB0_481
 
 LBB0_480:
-	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
-	WORD $0x1c2b; BYTE $0xb1 // sub    ebx, dword [rcx + 4*rsi]
-	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
+	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc08348         // add    rax, -1
 	JNE  LBB0_480
 
 LBB0_481:
-	LONG $0x03ff8348 // cmp    rdi, 3
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
 LBB0_482:
@@ -819,30 +639,264 @@ LBB0_482:
 	JNE  LBB0_482
 	JMP  LBB0_537
 
-LBB0_528:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+LBB0_89:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_533
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_94
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_533
+	JNE  LBB0_94
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_531:
-	LONG $0x0410fdc5; BYTE $0xfa               // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa             // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
+LBB0_92:
+	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_92
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_94:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_96
+
+LBB0_95:
+	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
+	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_95
+
+LBB0_96:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
+
+LBB0_97:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_97
+	JMP  LBB0_537
+
+LBB0_348:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_353
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_353
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_351:
+	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
+	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_351
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_353:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_355
+
+LBB0_354:
+	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
+	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_354
+
+LBB0_355:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
+
+LBB0_356:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_356
+	JMP  LBB0_537
+
+LBB0_269:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_274
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_274
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_272:
+	LONG $0x0410fdc5; BYTE $0xf9               // vmovupd    ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20f9             // vmovupd    ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60f9             // vmovupd    ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x0458fdc5; BYTE $0xfa               // vaddpd    ymm0, ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c58f5c5; WORD $0x20fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5458edc5; WORD $0x40fa             // vaddpd    ymm2, ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c58e5c5; WORD $0x60fa             // vaddpd    ymm3, ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_272
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_274:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_276
+
+LBB0_275:
+	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0458fbc5; BYTE $0xf2   // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_275
+
+LBB0_276:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_537
+
+LBB0_277:
+	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0458fbc5; BYTE $0xf2               // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x4458fbc5; WORD $0x08f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x4458fbc5; WORD $0x10f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x4458fbc5; WORD $0x18f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_277
+	JMP  LBB0_537
+
+LBB0_528:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_533
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_533
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_531:
+	LONG $0x0410fdc5; BYTE $0xfa               // vmovupd    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20fa             // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
 	LONG $0x5410fdc5; WORD $0x40fa             // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
 	LONG $0x5c10fdc5; WORD $0x60fa             // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
 	LONG $0x045cfdc5; BYTE $0xf9               // vsubpd    ymm0, ymm0, yword [rcx + 8*rdi]
@@ -897,496 +951,418 @@ LBB0_536:
 	JNE  LBB0_536
 	JMP  LBB0_537
 
-LBB0_441:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+LBB0_143:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_446
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_148
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_446
+	JNE  LBB0_148
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_444:
-	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
-	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
-	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
-	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
-	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
-	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
-	LONG $0x80ef8348                           // sub    rdi, -128
+LBB0_146:
+	LONG $0x0410fdc5; BYTE $0xf9               // vmovupd    ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20f9             // vmovupd    ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60f9             // vmovupd    ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x0458fdc5; BYTE $0xfa               // vaddpd    ymm0, ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c58f5c5; WORD $0x20fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5458edc5; WORD $0x40fa             // vaddpd    ymm2, ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c58e5c5; WORD $0x60fa             // vaddpd    ymm3, ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_444
+	JNE  LBB0_146
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_446:
+LBB0_148:
 	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
 	WORD $0xf748; BYTE $0xd7 // not    rdi
 	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_448
+	JE   LBB0_150
 
-LBB0_447:
-	LONG $0x321cb60f         // movzx    ebx, byte [rdx + rsi]
-	WORD $0x1c2a; BYTE $0x31 // sub    bl, byte [rcx + rsi]
-	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_447
+LBB0_149:
+	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0458fbc5; BYTE $0xf2   // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_149
 
-LBB0_448:
+LBB0_150:
 	LONG $0x03ff8348 // cmp    rdi, 3
 	JB   LBB0_537
 
-LBB0_449:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_449
+LBB0_151:
+	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0458fbc5; BYTE $0xf2               // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x4458fbc5; WORD $0x08f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x4458fbc5; WORD $0x10f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x4458fbc5; WORD $0x18f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_151
 	JMP  LBB0_537
 
-LBB0_495:
+LBB0_402:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
 	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
 	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_500
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_407
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_500
+	JNE  LBB0_407
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_498:
-	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
-	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+LBB0_405:
+	LONG $0x0410fdc5; BYTE $0xfa               // vmovupd    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20fa             // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40fa             // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60fa             // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x045cfdc5; BYTE $0xf9               // vsubpd    ymm0, ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c5cf5c5; WORD $0x20f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x545cedc5; WORD $0x40f9             // vsubpd    ymm2, ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c5ce5c5; WORD $0x60f9             // vsubpd    ymm3, ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
 	LONG $0x10c78348                           // add    rdi, 16
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_498
+	JNE  LBB0_405
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_500:
+LBB0_407:
 	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
 	WORD $0xf748; BYTE $0xd7 // not    rdi
 	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_502
+	JE   LBB0_409
 
-LBB0_501:
-	LONG $0xf21c8b48 // mov    rbx, qword [rdx + 8*rsi]
-	LONG $0xf11c2b48 // sub    rbx, qword [rcx + 8*rsi]
-	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_501
+LBB0_408:
+	LONG $0x0410fbc5; BYTE $0xf2   // vmovsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045cfbc5; BYTE $0xf1   // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_408
 
-LBB0_502:
+LBB0_409:
 	LONG $0x03ff8348 // cmp    rdi, 3
 	JB   LBB0_537
 
-LBB0_503:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_503
+LBB0_410:
+	LONG $0x0410fbc5; BYTE $0xf2               // vmovsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045cfbc5; BYTE $0xf1               // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
+	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x4410fbc5; WORD $0x08f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x445cfbc5; WORD $0x08f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x4410fbc5; WORD $0x10f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x445cfbc5; WORD $0x10f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x4410fbc5; WORD $0x18f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x445cfbc5; WORD $0x18f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_410
 	JMP  LBB0_537
 
-LBB0_453:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+LBB0_182:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_458
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_187
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_458
+	JNE  LBB0_187
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_456:
-	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
-	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
+LBB0_185:
+	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
+	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
+	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
+	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
+	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
+	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_456
+	JNE  LBB0_185
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_458:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_460
+LBB0_187:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_189
 
-LBB0_459:
-	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
-	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_459
+LBB0_188:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_188
 
-LBB0_460:
-	LONG $0x03ff8348 // cmp    rdi, 3
+LBB0_189:
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_461:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_461
+LBB0_190:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_190
 	JMP  LBB0_537
 
-LBB0_465:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+LBB0_441:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_470
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_446
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_470
+	JNE  LBB0_446
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_468:
-	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
-	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
-	LONG $0x40c78348                           // add    rdi, 64
+LBB0_444:
+	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
+	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
+	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
+	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
+	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
+	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_468
+	JNE  LBB0_444
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_470:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_472
+LBB0_446:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_448
 
-LBB0_471:
-	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
-	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_471
+LBB0_447:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_447
 
-LBB0_472:
-	LONG $0x03ff8348 // cmp    rdi, 3
+LBB0_448:
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_473:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_473
+LBB0_449:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_449
 	JMP  LBB0_537
 
-LBB0_507:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+LBB0_56:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_512
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_61
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_512
+	JNE  LBB0_61
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_510:
-	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
-	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
-	LONG $0x10c78348                           // add    rdi, 16
+LBB0_59:
+	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
+	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
+	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
+	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
+	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
+	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_510
+	JNE  LBB0_59
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_512:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_514
+LBB0_61:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_63
 
-LBB0_513:
-	LONG $0xf21c8b48 // mov    rbx, qword [rdx + 8*rsi]
-	LONG $0xf11c2b48 // sub    rbx, qword [rcx + 8*rsi]
-	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_513
+LBB0_62:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_62
 
-LBB0_514:
-	LONG $0x03ff8348 // cmp    rdi, 3
+LBB0_63:
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_515:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+LBB0_64:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_515
-	JMP  LBB0_537
-
-LBB0_519:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd7970f40         // seta    dil
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_524
-	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_524
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xff31             // xor    edi, edi
-
-LBB0_522:
-	LONG $0x0410fcc5; BYTE $0xba               // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba             // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba             // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba             // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x045cfcc5; BYTE $0xb9               // vsubps    ymm0, ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c5cf4c5; WORD $0x20b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x545cecc5; WORD $0x40b9             // vsubps    ymm2, ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c5ce4c5; WORD $0x60b9             // vsubps    ymm3, ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
-	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_522
-	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
-	JE   LBB0_537
-
-LBB0_524:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_526
-
-LBB0_525:
-	LONG $0x0410fac5; BYTE $0xb2   // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045cfac5; BYTE $0xb1   // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_525
-
-LBB0_526:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB0_537
-
-LBB0_527:
-	LONG $0x0410fac5; BYTE $0xb2               // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045cfac5; BYTE $0xb1               // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x4410fac5; WORD $0x04b2             // vmovss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x445cfac5; WORD $0x04b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x4410fac5; WORD $0x08b2             // vmovss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x445cfac5; WORD $0x08b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x4410fac5; WORD $0x0cb2             // vmovss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x445cfac5; WORD $0x0cb1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_527
+	JNE  LBB0_64
 	JMP  LBB0_537
 
-LBB0_432:
+LBB0_315:
 	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
 	LONG $0x12048d4a         // lea    rax, [rdx + r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
 	LONG $0x11048d4a         // lea    rax, [rcx + r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_437
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_320
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_437
+	JNE  LBB0_320
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0x80 // and    esi, -128
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_435:
+LBB0_318:
 	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
 	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
 	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
@@ -1401,31 +1377,31 @@ LBB0_435:
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
 	LONG $0x80ef8348                           // sub    rdi, -128
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_435
+	JNE  LBB0_318
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_437:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_439
+LBB0_320:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_322
 
-LBB0_438:
-	LONG $0x321cb60f         // movzx    ebx, byte [rdx + rsi]
-	WORD $0x1c2a; BYTE $0x31 // sub    bl, byte [rcx + rsi]
-	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
+LBB0_321:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_438
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_321
 
-LBB0_439:
-	LONG $0x03ff8348 // cmp    rdi, 3
+LBB0_322:
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_440:
+LBB0_323:
 	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
 	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
 	LONG $0x30048841             // mov    byte [r8 + rsi], al
@@ -1440,989 +1416,850 @@ LBB0_440:
 	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_440
+	JNE  LBB0_323
 	JMP  LBB0_537
 
-LBB0_486:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+LBB0_236:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_491
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_241
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_491
+	JNE  LBB0_241
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_489:
-	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
-	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
-	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
-	LONG $0x20c78348                           // add    rdi, 32
+LBB0_239:
+	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
+	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_489
+	JNE  LBB0_239
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_491:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+LBB0_241:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_493
+	JE   LBB0_243
 
-LBB0_492:
-	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
-	WORD $0x1c2b; BYTE $0xb1 // sub    ebx, dword [rcx + 4*rsi]
-	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_492
+LBB0_242:
+	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
+	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
+	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_242
 
-LBB0_493:
-	LONG $0x03ff8348 // cmp    rdi, 3
+LBB0_243:
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_494:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+LBB0_244:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_494
+	JNE  LBB0_244
 	JMP  LBB0_537
 
-LBB0_208:
-	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
-	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+LBB0_495:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_213
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_213
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xc031             // xor    eax, eax
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_500
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_500
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_211:
-	LONG $0x046ffec5; BYTE $0x81               // vmovdqu    ymm0, yword [rcx + 4*rax]
-	LONG $0x4c6ffec5; WORD $0x2081             // vmovdqu    ymm1, yword [rcx + 4*rax + 32]
-	LONG $0x546ffec5; WORD $0x4081             // vmovdqu    ymm2, yword [rcx + 4*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6081             // vmovdqu    ymm3, yword [rcx + 4*rax + 96]
-	LONG $0x04fefdc5; BYTE $0x82               // vpaddd    ymm0, ymm0, yword [rdx + 4*rax]
-	LONG $0x4cfef5c5; WORD $0x2082             // vpaddd    ymm1, ymm1, yword [rdx + 4*rax + 32]
-	LONG $0x54feedc5; WORD $0x4082             // vpaddd    ymm2, ymm2, yword [rdx + 4*rax + 64]
-	LONG $0x5cfee5c5; WORD $0x6082             // vpaddd    ymm3, ymm3, yword [rdx + 4*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x8004             // vmovdqu    yword [r8 + 4*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x804c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm3
-	LONG $0x20c08348                           // add    rax, 32
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_211
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JNE  LBB0_213
-	JMP  LBB0_271
+LBB0_498:
+	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
+	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_498
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_500:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_502
+
+LBB0_501:
+	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
+	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
+	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_501
+
+LBB0_502:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
+
+LBB0_503:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_503
+	JMP  LBB0_537
 
-LBB0_262:
-	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
-	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+LBB0_110:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_267
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_267
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_115
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_115
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xc031             // xor    eax, eax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_265:
-	LONG $0x0410fdc5; BYTE $0xc1               // vmovupd    ymm0, yword [rcx + 8*rax]
-	LONG $0x4c10fdc5; WORD $0x20c1             // vmovupd    ymm1, yword [rcx + 8*rax + 32]
-	LONG $0x5410fdc5; WORD $0x40c1             // vmovupd    ymm2, yword [rcx + 8*rax + 64]
-	LONG $0x5c10fdc5; WORD $0x60c1             // vmovupd    ymm3, yword [rcx + 8*rax + 96]
-	LONG $0x0458fdc5; BYTE $0xc2               // vaddpd    ymm0, ymm0, yword [rdx + 8*rax]
-	LONG $0x4c58f5c5; WORD $0x20c2             // vaddpd    ymm1, ymm1, yword [rdx + 8*rax + 32]
-	LONG $0x5458edc5; WORD $0x40c2             // vaddpd    ymm2, ymm2, yword [rdx + 8*rax + 64]
-	LONG $0x5c58e5c5; WORD $0x60c2             // vaddpd    ymm3, ymm3, yword [rdx + 8*rax + 96]
-	LONG $0x117dc1c4; WORD $0xc004             // vmovupd    yword [r8 + 8*rax], ymm0
-	LONG $0x117dc1c4; WORD $0xc04c; BYTE $0x20 // vmovupd    yword [r8 + 8*rax + 32], ymm1
-	LONG $0x117dc1c4; WORD $0xc054; BYTE $0x40 // vmovupd    yword [r8 + 8*rax + 64], ymm2
-	LONG $0x117dc1c4; WORD $0xc05c; BYTE $0x60 // vmovupd    yword [r8 + 8*rax + 96], ymm3
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_265
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JNE  LBB0_267
-	JMP  LBB0_271
+LBB0_113:
+	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
+	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_113
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB0_175:
-	LONG $0x18348d4b         // lea    rsi, [r8 + r11]
-	LONG $0x1a048d4a         // lea    rax, [rdx + r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x19048d4a         // lea    rax, [rcx + r11]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_180
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_180
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xc031             // xor    eax, eax
+LBB0_115:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_117
 
-LBB0_178:
-	LONG $0x046ffec5; BYTE $0x01               // vmovdqu    ymm0, yword [rcx + rax]
-	LONG $0x4c6ffec5; WORD $0x2001             // vmovdqu    ymm1, yword [rcx + rax + 32]
-	LONG $0x546ffec5; WORD $0x4001             // vmovdqu    ymm2, yword [rcx + rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6001             // vmovdqu    ymm3, yword [rcx + rax + 96]
-	LONG $0x04fcfdc5; BYTE $0x02               // vpaddb    ymm0, ymm0, yword [rdx + rax]
-	LONG $0x4cfcf5c5; WORD $0x2002             // vpaddb    ymm1, ymm1, yword [rdx + rax + 32]
-	LONG $0x54fcedc5; WORD $0x4002             // vpaddb    ymm2, ymm2, yword [rdx + rax + 64]
-	LONG $0x5cfce5c5; WORD $0x6002             // vpaddb    ymm3, ymm3, yword [rdx + rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x0004             // vmovdqu    yword [r8 + rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x004c; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm3
-	LONG $0x80e88348                           // sub    rax, -128
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_178
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JNE  LBB0_180
-	JMP  LBB0_271
+LBB0_116:
+	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
+	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
+	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_116
+
+LBB0_117:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
+
+LBB0_118:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_118
+	JMP  LBB0_537
 
-LBB0_229:
-	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
-	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+LBB0_369:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_234
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_234
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_374
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_374
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xc031             // xor    eax, eax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_232:
-	LONG $0x046ffec5; BYTE $0xc1               // vmovdqu    ymm0, yword [rcx + 8*rax]
-	LONG $0x4c6ffec5; WORD $0x20c1             // vmovdqu    ymm1, yword [rcx + 8*rax + 32]
-	LONG $0x546ffec5; WORD $0x40c1             // vmovdqu    ymm2, yword [rcx + 8*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x60c1             // vmovdqu    ymm3, yword [rcx + 8*rax + 96]
-	LONG $0x04d4fdc5; BYTE $0xc2               // vpaddq    ymm0, ymm0, yword [rdx + 8*rax]
-	LONG $0x4cd4f5c5; WORD $0x20c2             // vpaddq    ymm1, ymm1, yword [rdx + 8*rax + 32]
-	LONG $0x54d4edc5; WORD $0x40c2             // vpaddq    ymm2, ymm2, yword [rdx + 8*rax + 64]
-	LONG $0x5cd4e5c5; WORD $0x60c2             // vpaddq    ymm3, ymm3, yword [rdx + 8*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0xc004             // vmovdqu    yword [r8 + 8*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0xc04c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm3
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_232
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JNE  LBB0_234
-	JMP  LBB0_271
+LBB0_372:
+	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
+	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_372
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB0_187:
-	LONG $0x58348d4b         // lea    rsi, [r8 + 2*r11]
-	LONG $0x5a048d4a         // lea    rax, [rdx + 2*r11]
+LBB0_374:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_376
+
+LBB0_375:
+	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
+	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
+	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_375
+
+LBB0_376:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
+
+LBB0_377:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_377
+	JMP  LBB0_537
+
+LBB0_194:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x59048d4a         // lea    rax, [rcx + 2*r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_192
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_192
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_199
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_199
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xc031             // xor    eax, eax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_190:
-	LONG $0x046ffec5; BYTE $0x41               // vmovdqu    ymm0, yword [rcx + 2*rax]
-	LONG $0x4c6ffec5; WORD $0x2041             // vmovdqu    ymm1, yword [rcx + 2*rax + 32]
-	LONG $0x546ffec5; WORD $0x4041             // vmovdqu    ymm2, yword [rcx + 2*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6041             // vmovdqu    ymm3, yword [rcx + 2*rax + 96]
-	LONG $0x04fdfdc5; BYTE $0x42               // vpaddw    ymm0, ymm0, yword [rdx + 2*rax]
-	LONG $0x4cfdf5c5; WORD $0x2042             // vpaddw    ymm1, ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x54fdedc5; WORD $0x4042             // vpaddw    ymm2, ymm2, yword [rdx + 2*rax + 64]
-	LONG $0x5cfde5c5; WORD $0x6042             // vpaddw    ymm3, ymm3, yword [rdx + 2*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x4004             // vmovdqu    yword [r8 + 2*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x404c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x4054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x405c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rax + 96], ymm3
-	LONG $0x40c08348                           // add    rax, 64
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_190
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JNE  LBB0_192
-	JMP  LBB0_271
+LBB0_197:
+	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
+	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_197
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
 LBB0_199:
-	LONG $0x58348d4b         // lea    rsi, [r8 + 2*r11]
-	LONG $0x5a048d4a         // lea    rax, [rdx + 2*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x59048d4a         // lea    rax, [rcx + 2*r11]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_204
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_204
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xc031             // xor    eax, eax
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_201
+
+LBB0_200:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_200
+
+LBB0_201:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
 LBB0_202:
-	LONG $0x046ffec5; BYTE $0x41               // vmovdqu    ymm0, yword [rcx + 2*rax]
-	LONG $0x4c6ffec5; WORD $0x2041             // vmovdqu    ymm1, yword [rcx + 2*rax + 32]
-	LONG $0x546ffec5; WORD $0x4041             // vmovdqu    ymm2, yword [rcx + 2*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6041             // vmovdqu    ymm3, yword [rcx + 2*rax + 96]
-	LONG $0x04fdfdc5; BYTE $0x42               // vpaddw    ymm0, ymm0, yword [rdx + 2*rax]
-	LONG $0x4cfdf5c5; WORD $0x2042             // vpaddw    ymm1, ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x54fdedc5; WORD $0x4042             // vpaddw    ymm2, ymm2, yword [rdx + 2*rax + 64]
-	LONG $0x5cfde5c5; WORD $0x6042             // vpaddw    ymm3, ymm3, yword [rdx + 2*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x4004             // vmovdqu    yword [r8 + 2*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x404c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x4054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x405c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rax + 96], ymm3
-	LONG $0x40c08348                           // add    rax, 64
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
 	JNE  LBB0_202
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JNE  LBB0_204
-	JMP  LBB0_271
+	JMP  LBB0_537
 
-LBB0_241:
-	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
-	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+LBB0_206:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_246
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_246
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xc031             // xor    eax, eax
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_211
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_211
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_244:
-	LONG $0x046ffec5; BYTE $0xc1               // vmovdqu    ymm0, yword [rcx + 8*rax]
-	LONG $0x4c6ffec5; WORD $0x20c1             // vmovdqu    ymm1, yword [rcx + 8*rax + 32]
-	LONG $0x546ffec5; WORD $0x40c1             // vmovdqu    ymm2, yword [rcx + 8*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x60c1             // vmovdqu    ymm3, yword [rcx + 8*rax + 96]
-	LONG $0x04d4fdc5; BYTE $0xc2               // vpaddq    ymm0, ymm0, yword [rdx + 8*rax]
-	LONG $0x4cd4f5c5; WORD $0x20c2             // vpaddq    ymm1, ymm1, yword [rdx + 8*rax + 32]
-	LONG $0x54d4edc5; WORD $0x40c2             // vpaddq    ymm2, ymm2, yword [rdx + 8*rax + 64]
-	LONG $0x5cd4e5c5; WORD $0x60c2             // vpaddq    ymm3, ymm3, yword [rdx + 8*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0xc004             // vmovdqu    yword [r8 + 8*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0xc04c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm3
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_244
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JNE  LBB0_246
-	JMP  LBB0_271
+LBB0_209:
+	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
+	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_209
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB0_253:
-	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
-	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_258
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_258
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xc031             // xor    eax, eax
+LBB0_211:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_213
 
-LBB0_256:
-	LONG $0x0410fcc5; BYTE $0x81               // vmovups    ymm0, yword [rcx + 4*rax]
-	LONG $0x4c10fcc5; WORD $0x2081             // vmovups    ymm1, yword [rcx + 4*rax + 32]
-	LONG $0x5410fcc5; WORD $0x4081             // vmovups    ymm2, yword [rcx + 4*rax + 64]
-	LONG $0x5c10fcc5; WORD $0x6081             // vmovups    ymm3, yword [rcx + 4*rax + 96]
-	LONG $0x0458fcc5; BYTE $0x82               // vaddps    ymm0, ymm0, yword [rdx + 4*rax]
-	LONG $0x4c58f4c5; WORD $0x2082             // vaddps    ymm1, ymm1, yword [rdx + 4*rax + 32]
-	LONG $0x5458ecc5; WORD $0x4082             // vaddps    ymm2, ymm2, yword [rdx + 4*rax + 64]
-	LONG $0x5c58e4c5; WORD $0x6082             // vaddps    ymm3, ymm3, yword [rdx + 4*rax + 96]
-	LONG $0x117cc1c4; WORD $0x8004             // vmovups    yword [r8 + 4*rax], ymm0
-	LONG $0x117cc1c4; WORD $0x804c; BYTE $0x20 // vmovups    yword [r8 + 4*rax + 32], ymm1
-	LONG $0x117cc1c4; WORD $0x8054; BYTE $0x40 // vmovups    yword [r8 + 4*rax + 64], ymm2
-	LONG $0x117cc1c4; WORD $0x805c; BYTE $0x60 // vmovups    yword [r8 + 4*rax + 96], ymm3
-	LONG $0x20c08348                           // add    rax, 32
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_256
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JNE  LBB0_258
-	JMP  LBB0_271
+LBB0_212:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_212
 
-LBB0_166:
-	LONG $0x18348d4b         // lea    rsi, [r8 + r11]
-	LONG $0x1a048d4a         // lea    rax, [rdx + r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x19048d4a         // lea    rax, [rcx + r11]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_171
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_171
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_169:
-	LONG $0x046ffec5; BYTE $0x01               // vmovdqu    ymm0, yword [rcx + rax]
-	LONG $0x4c6ffec5; WORD $0x2001             // vmovdqu    ymm1, yword [rcx + rax + 32]
-	LONG $0x546ffec5; WORD $0x4001             // vmovdqu    ymm2, yword [rcx + rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6001             // vmovdqu    ymm3, yword [rcx + rax + 96]
-	LONG $0x04fcfdc5; BYTE $0x02               // vpaddb    ymm0, ymm0, yword [rdx + rax]
-	LONG $0x4cfcf5c5; WORD $0x2002             // vpaddb    ymm1, ymm1, yword [rdx + rax + 32]
-	LONG $0x54fcedc5; WORD $0x4002             // vpaddb    ymm2, ymm2, yword [rdx + rax + 64]
-	LONG $0x5cfce5c5; WORD $0x6002             // vpaddb    ymm3, ymm3, yword [rdx + rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x0004             // vmovdqu    yword [r8 + rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x004c; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm3
-	LONG $0x80e88348                           // sub    rax, -128
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_169
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JNE  LBB0_171
-	JMP  LBB0_271
+LBB0_213:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB0_220:
-	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
-	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+LBB0_214:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_214
+	JMP  LBB0_537
+
+LBB0_453:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_225
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_225
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_223:
-	LONG $0x046ffec5; BYTE $0x81               // vmovdqu    ymm0, yword [rcx + 4*rax]
-	LONG $0x4c6ffec5; WORD $0x2081             // vmovdqu    ymm1, yword [rcx + 4*rax + 32]
-	LONG $0x546ffec5; WORD $0x4081             // vmovdqu    ymm2, yword [rcx + 4*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6081             // vmovdqu    ymm3, yword [rcx + 4*rax + 96]
-	LONG $0x04fefdc5; BYTE $0x82               // vpaddd    ymm0, ymm0, yword [rdx + 4*rax]
-	LONG $0x4cfef5c5; WORD $0x2082             // vpaddd    ymm1, ymm1, yword [rdx + 4*rax + 32]
-	LONG $0x54feedc5; WORD $0x4082             // vpaddd    ymm2, ymm2, yword [rdx + 4*rax + 64]
-	LONG $0x5cfee5c5; WORD $0x6082             // vpaddd    ymm3, ymm3, yword [rdx + 4*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x8004             // vmovdqu    yword [r8 + 4*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x804c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm3
-	LONG $0x20c08348                           // add    rax, 32
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_223
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JNE  LBB0_225
-
-LBB0_271:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_284
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_273
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_317
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_329
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_404
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_341
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_346
-
-LBB0_284:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_285
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_371
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_383
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_404
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_395
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_400
-
-LBB0_273:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB0_296
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB0_404
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb                   // mov    r11d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_308
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_313
-
-LBB0_285:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_350
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_404
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_362
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_367
-
-LBB0_317:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_320
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_325
-
-LBB0_329:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_332
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_337
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_458
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_458
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_371:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_374
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_379
+LBB0_456:
+	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
+	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_456
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB0_383:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_386
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_391
+LBB0_458:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_460
 
-LBB0_296:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb                   // mov    r11d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_299
-	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_304
+LBB0_459:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_459
 
-LBB0_350:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_537
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_353
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_358
+LBB0_460:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB0_537:
-	VZEROUPPER
-	RET
+LBB0_461:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_461
+	JMP  LBB0_537
 
-LBB0_341:
-	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
-	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+LBB0_465:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_346
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_346
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xc031             // xor    eax, eax
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_470
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_470
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_344:
-	LONG $0x046ffec5; BYTE $0x82               // vmovdqu    ymm0, yword [rdx + 4*rax]
-	LONG $0x4c6ffec5; WORD $0x2082             // vmovdqu    ymm1, yword [rdx + 4*rax + 32]
-	LONG $0x546ffec5; WORD $0x4082             // vmovdqu    ymm2, yword [rdx + 4*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6082             // vmovdqu    ymm3, yword [rdx + 4*rax + 96]
-	LONG $0x04fafdc5; BYTE $0x81               // vpsubd    ymm0, ymm0, yword [rcx + 4*rax]
-	LONG $0x4cfaf5c5; WORD $0x2081             // vpsubd    ymm1, ymm1, yword [rcx + 4*rax + 32]
-	LONG $0x54faedc5; WORD $0x4081             // vpsubd    ymm2, ymm2, yword [rcx + 4*rax + 64]
-	LONG $0x5cfae5c5; WORD $0x6081             // vpsubd    ymm3, ymm3, yword [rcx + 4*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x8004             // vmovdqu    yword [r8 + 4*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x804c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm3
-	LONG $0x20c08348                           // add    rax, 32
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_344
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_404
+LBB0_468:
+	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
+	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_468
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB0_346:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+LBB0_470:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_348
+	JE   LBB0_472
 
-LBB0_347:
-	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
-	WORD $0x1c2b; BYTE $0xb1 // sub    ebx, dword [rcx + 4*rsi]
-	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_347
+LBB0_471:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_471
 
-LBB0_348:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_404
+LBB0_472:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB0_349:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_349
-	JMP  LBB0_404
+LBB0_473:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_473
+	JMP  LBB0_537
 
-LBB0_395:
-	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
-	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+LBB0_68:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_400
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_400
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xc031             // xor    eax, eax
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_73
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_73
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_398:
-	LONG $0x0410fdc5; BYTE $0xc2               // vmovupd    ymm0, yword [rdx + 8*rax]
-	LONG $0x4c10fdc5; WORD $0x20c2             // vmovupd    ymm1, yword [rdx + 8*rax + 32]
-	LONG $0x5410fdc5; WORD $0x40c2             // vmovupd    ymm2, yword [rdx + 8*rax + 64]
-	LONG $0x5c10fdc5; WORD $0x60c2             // vmovupd    ymm3, yword [rdx + 8*rax + 96]
-	LONG $0x045cfdc5; BYTE $0xc1               // vsubpd    ymm0, ymm0, yword [rcx + 8*rax]
-	LONG $0x4c5cf5c5; WORD $0x20c1             // vsubpd    ymm1, ymm1, yword [rcx + 8*rax + 32]
-	LONG $0x545cedc5; WORD $0x40c1             // vsubpd    ymm2, ymm2, yword [rcx + 8*rax + 64]
-	LONG $0x5c5ce5c5; WORD $0x60c1             // vsubpd    ymm3, ymm3, yword [rcx + 8*rax + 96]
-	LONG $0x117dc1c4; WORD $0xc004             // vmovupd    yword [r8 + 8*rax], ymm0
-	LONG $0x117dc1c4; WORD $0xc04c; BYTE $0x20 // vmovupd    yword [r8 + 8*rax + 32], ymm1
-	LONG $0x117dc1c4; WORD $0xc054; BYTE $0x40 // vmovupd    yword [r8 + 8*rax + 64], ymm2
-	LONG $0x117dc1c4; WORD $0xc05c; BYTE $0x60 // vmovupd    yword [r8 + 8*rax + 96], ymm3
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_398
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_404
+LBB0_71:
+	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
+	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_71
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB0_400:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_402
-
-LBB0_401:
-	LONG $0x0410fbc5; BYTE $0xf2   // vmovsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045cfbc5; BYTE $0xf1   // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_401
-
-LBB0_402:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_404
-
-LBB0_403:
-	LONG $0x0410fbc5; BYTE $0xf2               // vmovsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045cfbc5; BYTE $0xf1               // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x4410fbc5; WORD $0x08f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x445cfbc5; WORD $0x08f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x4410fbc5; WORD $0x10f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x445cfbc5; WORD $0x10f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x4410fbc5; WORD $0x18f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x445cfbc5; WORD $0x18f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB0_403
-	JMP  LBB0_404
-
-LBB0_308:
-	LONG $0x18348d4b         // lea    rsi, [r8 + r11]
-	LONG $0x1a048d4a         // lea    rax, [rdx + r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x19048d4a         // lea    rax, [rcx + r11]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_313
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_313
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_311:
-	LONG $0x046ffec5; BYTE $0x02               // vmovdqu    ymm0, yword [rdx + rax]
-	LONG $0x4c6ffec5; WORD $0x2002             // vmovdqu    ymm1, yword [rdx + rax + 32]
-	LONG $0x546ffec5; WORD $0x4002             // vmovdqu    ymm2, yword [rdx + rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6002             // vmovdqu    ymm3, yword [rdx + rax + 96]
-	LONG $0x04f8fdc5; BYTE $0x01               // vpsubb    ymm0, ymm0, yword [rcx + rax]
-	LONG $0x4cf8f5c5; WORD $0x2001             // vpsubb    ymm1, ymm1, yword [rcx + rax + 32]
-	LONG $0x54f8edc5; WORD $0x4001             // vpsubb    ymm2, ymm2, yword [rcx + rax + 64]
-	LONG $0x5cf8e5c5; WORD $0x6001             // vpsubb    ymm3, ymm3, yword [rcx + rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x0004             // vmovdqu    yword [r8 + rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x004c; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm3
-	LONG $0x80e88348                           // sub    rax, -128
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_311
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_404
-
-LBB0_313:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+LBB0_73:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_315
+	JE   LBB0_75
 
-LBB0_314:
-	LONG $0x321cb60f         // movzx    ebx, byte [rdx + rsi]
-	WORD $0x1c2a; BYTE $0x31 // sub    bl, byte [rcx + rsi]
-	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_314
+LBB0_74:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_74
 
-LBB0_315:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_404
+LBB0_75:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB0_316:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_316
-	JMP  LBB0_404
+LBB0_76:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_76
+	JMP  LBB0_537
 
-LBB0_362:
-	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
-	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+LBB0_80:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_367
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_367
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xc031             // xor    eax, eax
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_85
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_85
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xc0 // and    esi, -64
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_365:
-	LONG $0x046ffec5; BYTE $0xc2               // vmovdqu    ymm0, yword [rdx + 8*rax]
-	LONG $0x4c6ffec5; WORD $0x20c2             // vmovdqu    ymm1, yword [rdx + 8*rax + 32]
-	LONG $0x546ffec5; WORD $0x40c2             // vmovdqu    ymm2, yword [rdx + 8*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x60c2             // vmovdqu    ymm3, yword [rdx + 8*rax + 96]
-	LONG $0x04fbfdc5; BYTE $0xc1               // vpsubq    ymm0, ymm0, yword [rcx + 8*rax]
-	LONG $0x4cfbf5c5; WORD $0x20c1             // vpsubq    ymm1, ymm1, yword [rcx + 8*rax + 32]
-	LONG $0x54fbedc5; WORD $0x40c1             // vpsubq    ymm2, ymm2, yword [rcx + 8*rax + 64]
-	LONG $0x5cfbe5c5; WORD $0x60c1             // vpsubq    ymm3, ymm3, yword [rcx + 8*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0xc004             // vmovdqu    yword [r8 + 8*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0xc04c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm3
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_365
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_404
+LBB0_83:
+	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
+	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_83
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB0_367:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+LBB0_85:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_369
+	JE   LBB0_87
 
-LBB0_368:
-	LONG $0xf21c8b48 // mov    rbx, qword [rdx + 8*rsi]
-	LONG $0xf11c2b48 // sub    rbx, qword [rcx + 8*rsi]
-	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_368
+LBB0_86:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc08348             // add    rax, -1
+	JNE  LBB0_86
 
-LBB0_369:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_404
+LBB0_87:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB0_370:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_370
-	JMP  LBB0_404
+LBB0_88:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_88
+	JMP  LBB0_537
 
-LBB0_320:
-	LONG $0x58348d4b         // lea    rsi, [r8 + 2*r11]
-	LONG $0x5a048d4a         // lea    rax, [rdx + 2*r11]
+LBB0_327:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x59048d4a         // lea    rax, [rcx + 2*r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_325
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_325
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_332
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_332
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xc031             // xor    eax, eax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_323:
-	LONG $0x046ffec5; BYTE $0x42               // vmovdqu    ymm0, yword [rdx + 2*rax]
-	LONG $0x4c6ffec5; WORD $0x2042             // vmovdqu    ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x546ffec5; WORD $0x4042             // vmovdqu    ymm2, yword [rdx + 2*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6042             // vmovdqu    ymm3, yword [rdx + 2*rax + 96]
-	LONG $0x04f9fdc5; BYTE $0x41               // vpsubw    ymm0, ymm0, yword [rcx + 2*rax]
-	LONG $0x4cf9f5c5; WORD $0x2041             // vpsubw    ymm1, ymm1, yword [rcx + 2*rax + 32]
-	LONG $0x54f9edc5; WORD $0x4041             // vpsubw    ymm2, ymm2, yword [rcx + 2*rax + 64]
-	LONG $0x5cf9e5c5; WORD $0x6041             // vpsubw    ymm3, ymm3, yword [rcx + 2*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x4004             // vmovdqu    yword [r8 + 2*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x404c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x4054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x405c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rax + 96], ymm3
-	LONG $0x40c08348                           // add    rax, 64
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_323
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_404
+LBB0_330:
+	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
+	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_330
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB0_325:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+LBB0_332:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_327
+	JE   LBB0_334
 
-LBB0_326:
-	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
-	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+LBB0_333:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_326
+	JNE  LBB0_333
 
-LBB0_327:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_404
+LBB0_334:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB0_328:
+LBB0_335:
 	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
 	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
@@ -2436,71 +2273,71 @@ LBB0_328:
 	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
 	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
 	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
-	JNE  LBB0_328
-	JMP  LBB0_404
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_335
+	JMP  LBB0_537
 
-LBB0_332:
-	LONG $0x58348d4b         // lea    rsi, [r8 + 2*r11]
-	LONG $0x5a048d4a         // lea    rax, [rdx + 2*r11]
+LBB0_339:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x59048d4a         // lea    rax, [rcx + 2*r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_337
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_337
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_344
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_344
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xc031             // xor    eax, eax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_335:
-	LONG $0x046ffec5; BYTE $0x42               // vmovdqu    ymm0, yword [rdx + 2*rax]
-	LONG $0x4c6ffec5; WORD $0x2042             // vmovdqu    ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x546ffec5; WORD $0x4042             // vmovdqu    ymm2, yword [rdx + 2*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6042             // vmovdqu    ymm3, yword [rdx + 2*rax + 96]
-	LONG $0x04f9fdc5; BYTE $0x41               // vpsubw    ymm0, ymm0, yword [rcx + 2*rax]
-	LONG $0x4cf9f5c5; WORD $0x2041             // vpsubw    ymm1, ymm1, yword [rcx + 2*rax + 32]
-	LONG $0x54f9edc5; WORD $0x4041             // vpsubw    ymm2, ymm2, yword [rcx + 2*rax + 64]
-	LONG $0x5cf9e5c5; WORD $0x6041             // vpsubw    ymm3, ymm3, yword [rcx + 2*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x4004             // vmovdqu    yword [r8 + 2*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x404c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x4054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x405c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rax + 96], ymm3
-	LONG $0x40c08348                           // add    rax, 64
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_335
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_404
+LBB0_342:
+	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
+	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
+	LONG $0x40c78348                           // add    rdi, 64
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_342
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB0_337:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+LBB0_344:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_339
+	JE   LBB0_346
 
-LBB0_338:
-	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
-	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+LBB0_345:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_338
+	JNE  LBB0_345
 
-LBB0_339:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_404
+LBB0_346:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB0_340:
+LBB0_347:
 	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
 	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
@@ -2514,851 +2351,383 @@ LBB0_340:
 	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
 	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
 	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
-	JNE  LBB0_340
-	JMP  LBB0_404
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_347
+	JMP  LBB0_537
 
-LBB0_374:
-	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
-	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+LBB0_248:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_379
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_379
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_253
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_253
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xc031             // xor    eax, eax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_377:
-	LONG $0x046ffec5; BYTE $0xc2               // vmovdqu    ymm0, yword [rdx + 8*rax]
-	LONG $0x4c6ffec5; WORD $0x20c2             // vmovdqu    ymm1, yword [rdx + 8*rax + 32]
-	LONG $0x546ffec5; WORD $0x40c2             // vmovdqu    ymm2, yword [rdx + 8*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x60c2             // vmovdqu    ymm3, yword [rdx + 8*rax + 96]
-	LONG $0x04fbfdc5; BYTE $0xc1               // vpsubq    ymm0, ymm0, yword [rcx + 8*rax]
-	LONG $0x4cfbf5c5; WORD $0x20c1             // vpsubq    ymm1, ymm1, yword [rcx + 8*rax + 32]
-	LONG $0x54fbedc5; WORD $0x40c1             // vpsubq    ymm2, ymm2, yword [rcx + 8*rax + 64]
-	LONG $0x5cfbe5c5; WORD $0x60c1             // vpsubq    ymm3, ymm3, yword [rcx + 8*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0xc004             // vmovdqu    yword [r8 + 8*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0xc04c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm3
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_377
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_404
+LBB0_251:
+	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
+	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_251
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB0_379:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+LBB0_253:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_381
+	JE   LBB0_255
 
-LBB0_380:
-	LONG $0xf21c8b48 // mov    rbx, qword [rdx + 8*rsi]
-	LONG $0xf11c2b48 // sub    rbx, qword [rcx + 8*rsi]
-	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
+LBB0_254:
+	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
+	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
+	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
 	LONG $0x01c68348 // add    rsi, 1
 	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_380
+	JNE  LBB0_254
 
-LBB0_381:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_404
+LBB0_255:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB0_382:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+LBB0_256:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
 	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
 	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
 	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
 	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_382
-	JMP  LBB0_404
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_256
+	JMP  LBB0_537
 
-LBB0_386:
-	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
-	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+LBB0_260:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_391
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_391
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_265
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_265
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xc031             // xor    eax, eax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_389:
-	LONG $0x0410fcc5; BYTE $0x82               // vmovups    ymm0, yword [rdx + 4*rax]
-	LONG $0x4c10fcc5; WORD $0x2082             // vmovups    ymm1, yword [rdx + 4*rax + 32]
-	LONG $0x5410fcc5; WORD $0x4082             // vmovups    ymm2, yword [rdx + 4*rax + 64]
-	LONG $0x5c10fcc5; WORD $0x6082             // vmovups    ymm3, yword [rdx + 4*rax + 96]
-	LONG $0x045cfcc5; BYTE $0x81               // vsubps    ymm0, ymm0, yword [rcx + 4*rax]
-	LONG $0x4c5cf4c5; WORD $0x2081             // vsubps    ymm1, ymm1, yword [rcx + 4*rax + 32]
-	LONG $0x545cecc5; WORD $0x4081             // vsubps    ymm2, ymm2, yword [rcx + 4*rax + 64]
-	LONG $0x5c5ce4c5; WORD $0x6081             // vsubps    ymm3, ymm3, yword [rcx + 4*rax + 96]
-	LONG $0x117cc1c4; WORD $0x8004             // vmovups    yword [r8 + 4*rax], ymm0
-	LONG $0x117cc1c4; WORD $0x804c; BYTE $0x20 // vmovups    yword [r8 + 4*rax + 32], ymm1
-	LONG $0x117cc1c4; WORD $0x8054; BYTE $0x40 // vmovups    yword [r8 + 4*rax + 64], ymm2
-	LONG $0x117cc1c4; WORD $0x805c; BYTE $0x60 // vmovups    yword [r8 + 4*rax + 96], ymm3
-	LONG $0x20c08348                           // add    rax, 32
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_389
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_404
+LBB0_263:
+	LONG $0x0410fcc5; BYTE $0xb9               // vmovups    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20b9             // vmovups    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40b9             // vmovups    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60b9             // vmovups    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x0458fcc5; BYTE $0xba               // vaddps    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c58f4c5; WORD $0x20ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5458ecc5; WORD $0x40ba             // vaddps    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c58e4c5; WORD $0x60ba             // vaddps    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_263
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB0_391:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+LBB0_265:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_393
+	JE   LBB0_267
 
-LBB0_392:
-	LONG $0x0410fac5; BYTE $0xb2   // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045cfac5; BYTE $0xb1   // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
+LBB0_266:
+	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x0458fac5; BYTE $0xb2   // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
 	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
 	LONG $0x01c68348               // add    rsi, 1
 	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_392
+	JNE  LBB0_266
 
-LBB0_393:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_404
+LBB0_267:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_537
 
-LBB0_394:
-	LONG $0x0410fac5; BYTE $0xb2               // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045cfac5; BYTE $0xb1               // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
+LBB0_268:
+	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x0458fac5; BYTE $0xb2               // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
 	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x4410fac5; WORD $0x04b2             // vmovss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x445cfac5; WORD $0x04b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x4458fac5; WORD $0x04b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
 	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x4410fac5; WORD $0x08b2             // vmovss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x445cfac5; WORD $0x08b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x4458fac5; WORD $0x08b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
 	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x4410fac5; WORD $0x0cb2             // vmovss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x445cfac5; WORD $0x0cb1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x4458fac5; WORD $0x0cb2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
 	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
 	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB0_394
-	JMP  LBB0_404
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_268
+	JMP  LBB0_537
 
-LBB0_299:
-	LONG $0x18348d4b         // lea    rsi, [r8 + r11]
-	LONG $0x1a048d4a         // lea    rax, [rdx + r11]
+LBB0_507:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x19048d4a         // lea    rax, [rcx + r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_304
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_304
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_302:
-	LONG $0x046ffec5; BYTE $0x02               // vmovdqu    ymm0, yword [rdx + rax]
-	LONG $0x4c6ffec5; WORD $0x2002             // vmovdqu    ymm1, yword [rdx + rax + 32]
-	LONG $0x546ffec5; WORD $0x4002             // vmovdqu    ymm2, yword [rdx + rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6002             // vmovdqu    ymm3, yword [rdx + rax + 96]
-	LONG $0x04f8fdc5; BYTE $0x01               // vpsubb    ymm0, ymm0, yword [rcx + rax]
-	LONG $0x4cf8f5c5; WORD $0x2001             // vpsubb    ymm1, ymm1, yword [rcx + rax + 32]
-	LONG $0x54f8edc5; WORD $0x4001             // vpsubb    ymm2, ymm2, yword [rcx + rax + 64]
-	LONG $0x5cf8e5c5; WORD $0x6001             // vpsubb    ymm3, ymm3, yword [rcx + rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x0004             // vmovdqu    yword [r8 + rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x004c; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm3
-	LONG $0x80e88348                           // sub    rax, -128
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_302
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_404
-
-LBB0_304:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_512
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_512
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_510:
+	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
+	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_510
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_512:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_306
+	JE   LBB0_514
 
-LBB0_305:
-	LONG $0x321cb60f         // movzx    ebx, byte [rdx + rsi]
-	WORD $0x1c2a; BYTE $0x31 // sub    bl, byte [rcx + rsi]
-	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_305
+LBB0_513:
+	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
+	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
+	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_513
 
-LBB0_306:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_404
+LBB0_514:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB0_307:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+LBB0_515:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_307
-	JMP  LBB0_404
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_515
+	JMP  LBB0_537
 
-LBB0_353:
-	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
-	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+LBB0_519:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_358
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_358
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_524
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_524
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xc031             // xor    eax, eax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_356:
-	LONG $0x046ffec5; BYTE $0x82               // vmovdqu    ymm0, yword [rdx + 4*rax]
-	LONG $0x4c6ffec5; WORD $0x2082             // vmovdqu    ymm1, yword [rdx + 4*rax + 32]
-	LONG $0x546ffec5; WORD $0x4082             // vmovdqu    ymm2, yword [rdx + 4*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6082             // vmovdqu    ymm3, yword [rdx + 4*rax + 96]
-	LONG $0x04fafdc5; BYTE $0x81               // vpsubd    ymm0, ymm0, yword [rcx + 4*rax]
-	LONG $0x4cfaf5c5; WORD $0x2081             // vpsubd    ymm1, ymm1, yword [rcx + 4*rax + 32]
-	LONG $0x54faedc5; WORD $0x4081             // vpsubd    ymm2, ymm2, yword [rcx + 4*rax + 64]
-	LONG $0x5cfae5c5; WORD $0x6081             // vpsubd    ymm3, ymm3, yword [rcx + 4*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x8004             // vmovdqu    yword [r8 + 4*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x804c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm3
-	LONG $0x20c08348                           // add    rax, 32
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_356
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_404
+LBB0_522:
+	LONG $0x0410fcc5; BYTE $0xba               // vmovups    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20ba             // vmovups    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40ba             // vmovups    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60ba             // vmovups    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x045cfcc5; BYTE $0xb9               // vsubps    ymm0, ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c5cf4c5; WORD $0x20b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x545cecc5; WORD $0x40b9             // vsubps    ymm2, ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c5ce4c5; WORD $0x60b9             // vsubps    ymm3, ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_522
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB0_358:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+LBB0_524:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_360
+	JE   LBB0_526
 
-LBB0_359:
-	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
-	WORD $0x1c2b; BYTE $0xb1 // sub    ebx, dword [rcx + 4*rsi]
-	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_359
+LBB0_525:
+	LONG $0x0410fac5; BYTE $0xb2   // vmovss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045cfac5; BYTE $0xb1   // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_525
 
-LBB0_360:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_404
+LBB0_526:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_537
 
-LBB0_361:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_361
-	JMP  LBB0_404
+LBB0_527:
+	LONG $0x0410fac5; BYTE $0xb2               // vmovss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045cfac5; BYTE $0xb1               // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x4410fac5; WORD $0x04b2             // vmovss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x445cfac5; WORD $0x04b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x4410fac5; WORD $0x08b2             // vmovss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x445cfac5; WORD $0x08b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x4410fac5; WORD $0x0cb2             // vmovss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x445cfac5; WORD $0x0cb1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_527
+	JMP  LBB0_537
 
-LBB0_75:
-	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
-	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+LBB0_122:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_80
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_80
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_78:
-	LONG $0x046ffec5; BYTE $0x81               // vmovdqu    ymm0, yword [rcx + 4*rax]
-	LONG $0x4c6ffec5; WORD $0x2081             // vmovdqu    ymm1, yword [rcx + 4*rax + 32]
-	LONG $0x546ffec5; WORD $0x4081             // vmovdqu    ymm2, yword [rcx + 4*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6081             // vmovdqu    ymm3, yword [rcx + 4*rax + 96]
-	LONG $0x04fefdc5; BYTE $0x82               // vpaddd    ymm0, ymm0, yword [rdx + 4*rax]
-	LONG $0x4cfef5c5; WORD $0x2082             // vpaddd    ymm1, ymm1, yword [rdx + 4*rax + 32]
-	LONG $0x54feedc5; WORD $0x4082             // vpaddd    ymm2, ymm2, yword [rdx + 4*rax + 64]
-	LONG $0x5cfee5c5; WORD $0x6082             // vpaddd    ymm3, ymm3, yword [rdx + 4*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x8004             // vmovdqu    yword [r8 + 4*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x804c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm3
-	LONG $0x20c08348                           // add    rax, 32
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_78
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_138
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_127
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_127
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_80:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_82
+LBB0_125:
+	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
+	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_125
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB0_81:
-	WORD $0x1c8b; BYTE $0xb1 // mov    ebx, dword [rcx + 4*rsi]
-	WORD $0x1c03; BYTE $0xb2 // add    ebx, dword [rdx + 4*rsi]
-	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_81
+LBB0_127:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_129
 
-LBB0_82:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_138
-
-LBB0_83:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_83
-	JMP  LBB0_138
+LBB0_128:
+	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
+	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
+	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_128
 
 LBB0_129:
-	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
-	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_134
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_134
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_132:
-	LONG $0x0410fdc5; BYTE $0xc1               // vmovupd    ymm0, yword [rcx + 8*rax]
-	LONG $0x4c10fdc5; WORD $0x20c1             // vmovupd    ymm1, yword [rcx + 8*rax + 32]
-	LONG $0x5410fdc5; WORD $0x40c1             // vmovupd    ymm2, yword [rcx + 8*rax + 64]
-	LONG $0x5c10fdc5; WORD $0x60c1             // vmovupd    ymm3, yword [rcx + 8*rax + 96]
-	LONG $0x0458fdc5; BYTE $0xc2               // vaddpd    ymm0, ymm0, yword [rdx + 8*rax]
-	LONG $0x4c58f5c5; WORD $0x20c2             // vaddpd    ymm1, ymm1, yword [rdx + 8*rax + 32]
-	LONG $0x5458edc5; WORD $0x40c2             // vaddpd    ymm2, ymm2, yword [rdx + 8*rax + 64]
-	LONG $0x5c58e5c5; WORD $0x60c2             // vaddpd    ymm3, ymm3, yword [rdx + 8*rax + 96]
-	LONG $0x117dc1c4; WORD $0xc004             // vmovupd    yword [r8 + 8*rax], ymm0
-	LONG $0x117dc1c4; WORD $0xc04c; BYTE $0x20 // vmovupd    yword [r8 + 8*rax + 32], ymm1
-	LONG $0x117dc1c4; WORD $0xc054; BYTE $0x40 // vmovupd    yword [r8 + 8*rax + 64], ymm2
-	LONG $0x117dc1c4; WORD $0xc05c; BYTE $0x60 // vmovupd    yword [r8 + 8*rax + 96], ymm3
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_132
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_138
-
-LBB0_134:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_136
-
-LBB0_135:
-	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0458fbc5; BYTE $0xf2   // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_135
-
-LBB0_136:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_138
-
-LBB0_137:
-	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0458fbc5; BYTE $0xf2               // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x4458fbc5; WORD $0x08f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x4458fbc5; WORD $0x10f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x4458fbc5; WORD $0x18f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB0_137
-	JMP  LBB0_138
-
-LBB0_42:
-	LONG $0x18348d4b         // lea    rsi, [r8 + r11]
-	LONG $0x1a048d4a         // lea    rax, [rdx + r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x19048d4a         // lea    rax, [rcx + r11]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_47
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_47
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_45:
-	LONG $0x046ffec5; BYTE $0x01               // vmovdqu    ymm0, yword [rcx + rax]
-	LONG $0x4c6ffec5; WORD $0x2001             // vmovdqu    ymm1, yword [rcx + rax + 32]
-	LONG $0x546ffec5; WORD $0x4001             // vmovdqu    ymm2, yword [rcx + rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6001             // vmovdqu    ymm3, yword [rcx + rax + 96]
-	LONG $0x04fcfdc5; BYTE $0x02               // vpaddb    ymm0, ymm0, yword [rdx + rax]
-	LONG $0x4cfcf5c5; WORD $0x2002             // vpaddb    ymm1, ymm1, yword [rdx + rax + 32]
-	LONG $0x54fcedc5; WORD $0x4002             // vpaddb    ymm2, ymm2, yword [rdx + rax + 64]
-	LONG $0x5cfce5c5; WORD $0x6002             // vpaddb    ymm3, ymm3, yword [rdx + rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x0004             // vmovdqu    yword [r8 + rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x004c; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm3
-	LONG $0x80e88348                           // sub    rax, -128
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_45
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_138
-
-LBB0_47:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_49
-
-LBB0_48:
-	LONG $0x311cb60f         // movzx    ebx, byte [rcx + rsi]
-	WORD $0x1c02; BYTE $0x32 // add    bl, byte [rdx + rsi]
-	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_48
-
-LBB0_49:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_138
-
-LBB0_50:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_50
-	JMP  LBB0_138
-
-LBB0_96:
-	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
-	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_101
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_101
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_99:
-	LONG $0x046ffec5; BYTE $0xc1               // vmovdqu    ymm0, yword [rcx + 8*rax]
-	LONG $0x4c6ffec5; WORD $0x20c1             // vmovdqu    ymm1, yword [rcx + 8*rax + 32]
-	LONG $0x546ffec5; WORD $0x40c1             // vmovdqu    ymm2, yword [rcx + 8*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x60c1             // vmovdqu    ymm3, yword [rcx + 8*rax + 96]
-	LONG $0x04d4fdc5; BYTE $0xc2               // vpaddq    ymm0, ymm0, yword [rdx + 8*rax]
-	LONG $0x4cd4f5c5; WORD $0x20c2             // vpaddq    ymm1, ymm1, yword [rdx + 8*rax + 32]
-	LONG $0x54d4edc5; WORD $0x40c2             // vpaddq    ymm2, ymm2, yword [rdx + 8*rax + 64]
-	LONG $0x5cd4e5c5; WORD $0x60c2             // vpaddq    ymm3, ymm3, yword [rdx + 8*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0xc004             // vmovdqu    yword [r8 + 8*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0xc04c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm3
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_99
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_138
-
-LBB0_101:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_103
-
-LBB0_102:
-	LONG $0xf11c8b48 // mov    rbx, qword [rcx + 8*rsi]
-	LONG $0xf21c0348 // add    rbx, qword [rdx + 8*rsi]
-	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_102
-
-LBB0_103:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_138
-
-LBB0_104:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_104
-	JMP  LBB0_138
-
-LBB0_54:
-	LONG $0x58348d4b         // lea    rsi, [r8 + 2*r11]
-	LONG $0x5a048d4a         // lea    rax, [rdx + 2*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x59048d4a         // lea    rax, [rcx + 2*r11]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_59
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_59
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_57:
-	LONG $0x046ffec5; BYTE $0x41               // vmovdqu    ymm0, yword [rcx + 2*rax]
-	LONG $0x4c6ffec5; WORD $0x2041             // vmovdqu    ymm1, yword [rcx + 2*rax + 32]
-	LONG $0x546ffec5; WORD $0x4041             // vmovdqu    ymm2, yword [rcx + 2*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6041             // vmovdqu    ymm3, yword [rcx + 2*rax + 96]
-	LONG $0x04fdfdc5; BYTE $0x42               // vpaddw    ymm0, ymm0, yword [rdx + 2*rax]
-	LONG $0x4cfdf5c5; WORD $0x2042             // vpaddw    ymm1, ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x54fdedc5; WORD $0x4042             // vpaddw    ymm2, ymm2, yword [rdx + 2*rax + 64]
-	LONG $0x5cfde5c5; WORD $0x6042             // vpaddw    ymm3, ymm3, yword [rdx + 2*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x4004             // vmovdqu    yword [r8 + 2*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x404c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x4054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x405c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rax + 96], ymm3
-	LONG $0x40c08348                           // add    rax, 64
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_57
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_138
-
-LBB0_59:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_61
-
-LBB0_60:
-	LONG $0x711cb70f             // movzx    ebx, word [rcx + 2*rsi]
-	LONG $0x721c0366             // add    bx, word [rdx + 2*rsi]
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_60
-
-LBB0_61:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_138
-
-LBB0_62:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
-	JNE  LBB0_62
-	JMP  LBB0_138
-
-LBB0_66:
-	LONG $0x58348d4b         // lea    rsi, [r8 + 2*r11]
-	LONG $0x5a048d4a         // lea    rax, [rdx + 2*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x59048d4a         // lea    rax, [rcx + 2*r11]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_71
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_71
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xc0 // and    esi, -64
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_69:
-	LONG $0x046ffec5; BYTE $0x41               // vmovdqu    ymm0, yword [rcx + 2*rax]
-	LONG $0x4c6ffec5; WORD $0x2041             // vmovdqu    ymm1, yword [rcx + 2*rax + 32]
-	LONG $0x546ffec5; WORD $0x4041             // vmovdqu    ymm2, yword [rcx + 2*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6041             // vmovdqu    ymm3, yword [rcx + 2*rax + 96]
-	LONG $0x04fdfdc5; BYTE $0x42               // vpaddw    ymm0, ymm0, yword [rdx + 2*rax]
-	LONG $0x4cfdf5c5; WORD $0x2042             // vpaddw    ymm1, ymm1, yword [rdx + 2*rax + 32]
-	LONG $0x54fdedc5; WORD $0x4042             // vpaddw    ymm2, ymm2, yword [rdx + 2*rax + 64]
-	LONG $0x5cfde5c5; WORD $0x6042             // vpaddw    ymm3, ymm3, yword [rdx + 2*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x4004             // vmovdqu    yword [r8 + 2*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x404c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x4054; BYTE $0x40 // vmovdqu    yword [r8 + 2*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x405c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rax + 96], ymm3
-	LONG $0x40c08348                           // add    rax, 64
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_69
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_138
-
-LBB0_71:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_73
-
-LBB0_72:
-	LONG $0x711cb70f             // movzx    ebx, word [rcx + 2*rsi]
-	LONG $0x721c0366             // add    bx, word [rdx + 2*rsi]
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_72
-
-LBB0_73:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_138
-
-LBB0_74:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3       // cmp    r11, rsi
-	JNE  LBB0_74
-	JMP  LBB0_138
-
-LBB0_108:
-	LONG $0xd8348d4b         // lea    rsi, [r8 + 8*r11]
-	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_113
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_113
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_111:
-	LONG $0x046ffec5; BYTE $0xc1               // vmovdqu    ymm0, yword [rcx + 8*rax]
-	LONG $0x4c6ffec5; WORD $0x20c1             // vmovdqu    ymm1, yword [rcx + 8*rax + 32]
-	LONG $0x546ffec5; WORD $0x40c1             // vmovdqu    ymm2, yword [rcx + 8*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x60c1             // vmovdqu    ymm3, yword [rcx + 8*rax + 96]
-	LONG $0x04d4fdc5; BYTE $0xc2               // vpaddq    ymm0, ymm0, yword [rdx + 8*rax]
-	LONG $0x4cd4f5c5; WORD $0x20c2             // vpaddq    ymm1, ymm1, yword [rdx + 8*rax + 32]
-	LONG $0x54d4edc5; WORD $0x40c2             // vpaddq    ymm2, ymm2, yword [rdx + 8*rax + 64]
-	LONG $0x5cd4e5c5; WORD $0x60c2             // vpaddq    ymm3, ymm3, yword [rdx + 8*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0xc004             // vmovdqu    yword [r8 + 8*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0xc04c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm3
-	LONG $0x10c08348                           // add    rax, 16
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_111
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_138
-
-LBB0_113:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_115
-
-LBB0_114:
-	LONG $0xf11c8b48 // mov    rbx, qword [rcx + 8*rsi]
-	LONG $0xf21c0348 // add    rbx, qword [rdx + 8*rsi]
-	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_114
-
-LBB0_115:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_138
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB0_116:
+LBB0_130:
 	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
 	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
 	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
@@ -3372,71 +2741,71 @@ LBB0_116:
 	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
 	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_116
-	JMP  LBB0_138
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_130
+	JMP  LBB0_537
 
-LBB0_120:
-	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
-	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+LBB0_134:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_125
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_125
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_139
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_139
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_123:
-	LONG $0x0410fcc5; BYTE $0x81               // vmovups    ymm0, yword [rcx + 4*rax]
-	LONG $0x4c10fcc5; WORD $0x2081             // vmovups    ymm1, yword [rcx + 4*rax + 32]
-	LONG $0x5410fcc5; WORD $0x4081             // vmovups    ymm2, yword [rcx + 4*rax + 64]
-	LONG $0x5c10fcc5; WORD $0x6081             // vmovups    ymm3, yword [rcx + 4*rax + 96]
-	LONG $0x0458fcc5; BYTE $0x82               // vaddps    ymm0, ymm0, yword [rdx + 4*rax]
-	LONG $0x4c58f4c5; WORD $0x2082             // vaddps    ymm1, ymm1, yword [rdx + 4*rax + 32]
-	LONG $0x5458ecc5; WORD $0x4082             // vaddps    ymm2, ymm2, yword [rdx + 4*rax + 64]
-	LONG $0x5c58e4c5; WORD $0x6082             // vaddps    ymm3, ymm3, yword [rdx + 4*rax + 96]
-	LONG $0x117cc1c4; WORD $0x8004             // vmovups    yword [r8 + 4*rax], ymm0
-	LONG $0x117cc1c4; WORD $0x804c; BYTE $0x20 // vmovups    yword [r8 + 4*rax + 32], ymm1
-	LONG $0x117cc1c4; WORD $0x8054; BYTE $0x40 // vmovups    yword [r8 + 4*rax + 64], ymm2
-	LONG $0x117cc1c4; WORD $0x805c; BYTE $0x60 // vmovups    yword [r8 + 4*rax + 96], ymm3
-	LONG $0x20c08348                           // add    rax, 32
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_123
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_138
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_125:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+LBB0_137:
+	LONG $0x0410fcc5; BYTE $0xb9               // vmovups    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20b9             // vmovups    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40b9             // vmovups    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60b9             // vmovups    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x0458fcc5; BYTE $0xba               // vaddps    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c58f4c5; WORD $0x20ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5458ecc5; WORD $0x40ba             // vaddps    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c58e4c5; WORD $0x60ba             // vaddps    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_137
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_139:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_127
+	JE   LBB0_141
 
-LBB0_126:
+LBB0_140:
 	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
 	LONG $0x0458fac5; BYTE $0xb2   // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
 	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
 	LONG $0x01c68348               // add    rsi, 1
 	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_126
+	JNE  LBB0_140
 
-LBB0_127:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_138
+LBB0_141:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_537
 
-LBB0_128:
+LBB0_142:
 	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
 	LONG $0x0458fac5; BYTE $0xb2               // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
 	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
@@ -3450,71 +2819,227 @@ LBB0_128:
 	LONG $0x4458fac5; WORD $0x0cb2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
 	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
 	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB0_128
-	JMP  LBB0_138
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_142
+	JMP  LBB0_537
 
-LBB0_33:
-	LONG $0x18348d4b         // lea    rsi, [r8 + r11]
-	LONG $0x1a048d4a         // lea    rax, [rdx + r11]
+LBB0_381:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x19048d4a         // lea    rax, [rcx + r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_38
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_38
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0x80 // and    esi, -128
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_36:
-	LONG $0x046ffec5; BYTE $0x01               // vmovdqu    ymm0, yword [rcx + rax]
-	LONG $0x4c6ffec5; WORD $0x2001             // vmovdqu    ymm1, yword [rcx + rax + 32]
-	LONG $0x546ffec5; WORD $0x4001             // vmovdqu    ymm2, yword [rcx + rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6001             // vmovdqu    ymm3, yword [rcx + rax + 96]
-	LONG $0x04fcfdc5; BYTE $0x02               // vpaddb    ymm0, ymm0, yword [rdx + rax]
-	LONG $0x4cfcf5c5; WORD $0x2002             // vpaddb    ymm1, ymm1, yword [rdx + rax + 32]
-	LONG $0x54fcedc5; WORD $0x4002             // vpaddb    ymm2, ymm2, yword [rdx + rax + 64]
-	LONG $0x5cfce5c5; WORD $0x6002             // vpaddb    ymm3, ymm3, yword [rdx + rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x0004             // vmovdqu    yword [r8 + rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x004c; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm3
-	LONG $0x80e88348                           // sub    rax, -128
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_36
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_138
-
-LBB0_38:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_386
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_386
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_384:
+	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
+	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
+	LONG $0x10c78348                           // add    rdi, 16
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_384
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_386:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_388
+
+LBB0_387:
+	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
+	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
+	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc08348 // add    rax, -1
+	JNE  LBB0_387
+
+LBB0_388:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
+
+LBB0_389:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_389
+	JMP  LBB0_537
+
+LBB0_393:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_398
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_398
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_396:
+	LONG $0x0410fcc5; BYTE $0xba               // vmovups    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20ba             // vmovups    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40ba             // vmovups    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60ba             // vmovups    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x045cfcc5; BYTE $0xb9               // vsubps    ymm0, ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c5cf4c5; WORD $0x20b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x545cecc5; WORD $0x40b9             // vsubps    ymm2, ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c5ce4c5; WORD $0x60b9             // vsubps    ymm3, ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_396
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_398:
+	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
+	WORD $0xf748; BYTE $0xd7 // not    rdi
+	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_40
+	JE   LBB0_400
+
+LBB0_399:
+	LONG $0x0410fac5; BYTE $0xb2   // vmovss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045cfac5; BYTE $0xb1   // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc08348               // add    rax, -1
+	JNE  LBB0_399
+
+LBB0_400:
+	LONG $0x03ff8348 // cmp    rdi, 3
+	JB   LBB0_537
+
+LBB0_401:
+	LONG $0x0410fac5; BYTE $0xb2               // vmovss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045cfac5; BYTE $0xb1               // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
+	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
+	LONG $0x4410fac5; WORD $0x04b2             // vmovss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x445cfac5; WORD $0x04b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x4410fac5; WORD $0x08b2             // vmovss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x445cfac5; WORD $0x08b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x4410fac5; WORD $0x0cb2             // vmovss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x445cfac5; WORD $0x0cb1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_401
+	JMP  LBB0_537
+
+LBB0_173:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_178
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_178
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_176:
+	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
+	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
+	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
+	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
+	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
+	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_176
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_178:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_180
 
-LBB0_39:
-	LONG $0x311cb60f         // movzx    ebx, byte [rcx + rsi]
-	WORD $0x1c02; BYTE $0x32 // add    bl, byte [rdx + rsi]
-	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
+LBB0_179:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_39
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_179
 
-LBB0_40:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_138
+LBB0_180:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB0_41:
+LBB0_181:
 	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
 	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
 	LONG $0x30048841             // mov    byte [r8 + rsi], al
@@ -3528,1893 +3053,3177 @@ LBB0_41:
 	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
 	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_41
-	JMP  LBB0_138
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_181
+	JMP  LBB0_537
 
-LBB0_87:
-	LONG $0x98348d4b         // lea    rsi, [r8 + 4*r11]
-	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
+LBB0_432:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd2970f41         // seta    r10b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_92
-	WORD $0x2044; BYTE $0xd0 // and    al, r10b
-	JNE  LBB0_92
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_90:
-	LONG $0x046ffec5; BYTE $0x81               // vmovdqu    ymm0, yword [rcx + 4*rax]
-	LONG $0x4c6ffec5; WORD $0x2081             // vmovdqu    ymm1, yword [rcx + 4*rax + 32]
-	LONG $0x546ffec5; WORD $0x4081             // vmovdqu    ymm2, yword [rcx + 4*rax + 64]
-	LONG $0x5c6ffec5; WORD $0x6081             // vmovdqu    ymm3, yword [rcx + 4*rax + 96]
-	LONG $0x04fefdc5; BYTE $0x82               // vpaddd    ymm0, ymm0, yword [rdx + 4*rax]
-	LONG $0x4cfef5c5; WORD $0x2082             // vpaddd    ymm1, ymm1, yword [rdx + 4*rax + 32]
-	LONG $0x54feedc5; WORD $0x4082             // vpaddd    ymm2, ymm2, yword [rdx + 4*rax + 64]
-	LONG $0x5cfee5c5; WORD $0x6082             // vpaddd    ymm3, ymm3, yword [rdx + 4*rax + 96]
-	LONG $0x7f7ec1c4; WORD $0x8004             // vmovdqu    yword [r8 + 4*rax], ymm0
-	LONG $0x7f7ec1c4; WORD $0x804c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm1
-	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm2
-	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm3
-	LONG $0x20c08348                           // add    rax, 32
-	WORD $0x3948; BYTE $0xc6                   // cmp    rsi, rax
-	JNE  LBB0_90
-	WORD $0x394c; BYTE $0xde                   // cmp    rsi, r11
-	JE   LBB0_138
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_437
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_437
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_92:
-	WORD $0x8949; BYTE $0xf2 // mov    r10, rsi
-	WORD $0xf749; BYTE $0xd2 // not    r10
-	WORD $0x014d; BYTE $0xda // add    r10, r11
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_94
+LBB0_435:
+	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
+	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
+	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
+	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
+	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
+	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_435
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
+
+LBB0_437:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_439
 
-LBB0_93:
-	WORD $0x1c8b; BYTE $0xb1 // mov    ebx, dword [rcx + 4*rsi]
-	WORD $0x1c03; BYTE $0xb2 // add    ebx, dword [rdx + 4*rsi]
-	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+LBB0_438:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_93
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_438
 
-LBB0_94:
-	LONG $0x03fa8349 // cmp    r10, 3
-	JB   LBB0_138
+LBB0_439:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB0_95:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+LBB0_440:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3     // cmp    r11, rsi
-	JNE  LBB0_95
-	JMP  LBB0_138
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_440
+	JMP  LBB0_537
 
-TEXT ·_arithmetic_arr_scalar_avx2(SB), $0-48
+LBB0_47:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_52
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_52
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xff31             // xor    edi, edi
 
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ inLeft+16(FP), DX
-	MOVQ inRight+24(FP), CX
-	MOVQ out+32(FP), R8
-	MOVQ len+40(FP), R9
-
-	LONG $0x01fe8040         // cmp    sil, 1
-	JG   LBB1_11
-	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB1_28
-	LONG $0x01fe8040         // cmp    sil, 1
-	JNE  LBB1_517
-
-LBB1_3:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_36
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_60
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_98
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_101
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_474
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_10
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_254
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_254
-
-LBB1_10:
-	WORD $0xf631 // xor    esi, esi
+LBB0_50:
+	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
+	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
+	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
+	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
+	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
+	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_50
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB1_398:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_400
+LBB0_52:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_54
 
-LBB1_399:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+LBB0_53:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_399
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_53
 
-LBB1_400:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_474
+LBB0_54:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB1_401:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+LBB0_55:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_401
-	JMP  LBB1_474
-
-LBB1_11:
-	LONG $0x02fe8040 // cmp    sil, 2
-	JE   LBB1_474
-	LONG $0x03fe8040 // cmp    sil, 3
-	JNE  LBB1_517
+	JNE  LBB0_55
+	JMP  LBB0_537
 
-LBB1_13:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_21
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_50
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_70
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_73
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_517
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_20
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_194
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_194
+LBB0_306:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_311
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_311
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80 // and    esi, -128
+	WORD $0xff31             // xor    edi, edi
 
-LBB1_20:
-	WORD $0xf631 // xor    esi, esi
+LBB0_309:
+	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
+	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
+	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
+	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
+	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
+	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
+	LONG $0x80ef8348                           // sub    rdi, -128
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_309
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB1_318:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_320
+LBB0_311:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_313
 
-LBB1_319:
-	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
-	WORD $0xc329             // sub    ebx, eax
-	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+LBB0_312:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc18348         // add    rcx, -1
-	JNE  LBB1_319
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_312
 
-LBB1_320:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB1_517
+LBB0_313:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB1_321:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+LBB0_314:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_321
-	JMP  LBB1_517
-
-LBB1_21:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_55
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_76
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_79
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_517
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_27
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_197
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_197
-
-LBB1_27:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_326:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_328
-
-LBB1_327:
-	LONG $0x0c10fbc5; BYTE $0xca   // vmovsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85cf3c5               // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_327
-
-LBB1_328:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_517
-
-LBB1_329:
-	LONG $0x0c10fbc5; BYTE $0xca               // vmovsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c10fbc5; WORD $0x08ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c10fbc5; WORD $0x10ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c10fbc5; WORD $0x18ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_329
-	JMP  LBB1_517
+	JNE  LBB0_314
+	JMP  LBB0_537
 
-LBB1_28:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_43
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_88
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_116
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_119
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_3
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_35
+LBB0_227:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
 	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_284
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_284
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_232
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_232
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
 
-LBB1_35:
-	WORD $0xf631 // xor    esi, esi
+LBB0_230:
+	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_230
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB1_662:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_664
+LBB0_232:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_234
 
-LBB1_663:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+LBB0_233:
+	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
+	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_663
-
-LBB1_664:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_3
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_233
 
-LBB1_665:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+LBB0_234:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
+
+LBB0_235:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
 	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
 	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
 	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
 	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_665
-	JMP  LBB1_3
+	JNE  LBB0_235
+	JMP  LBB0_537
 
-LBB1_36:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_65
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_104
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_107
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_474
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_42
-	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+LBB0_486:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_257
-	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_257
-
-LBB1_42:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_406:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_408
-
-LBB1_407:
-	LONG $0x0c58fbc5; BYTE $0xf2   // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf00c // vmovsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB1_407
-
-LBB1_408:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB1_474
-
-LBB1_409:
-	LONG $0x0c58fbc5; BYTE $0xf2               // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf00c             // vmovsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x4c58fbc5; WORD $0x08f2             // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x4c58fbc5; WORD $0x10f2             // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x4c58fbc5; WORD $0x18f2             // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB1_409
-	JMP  LBB1_474
-
-LBB1_43:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_93
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_122
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_125
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_3
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_49
-	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_287
-	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_287
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_491
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_491
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
 
-LBB1_49:
-	WORD $0xf631 // xor    esi, esi
+LBB0_489:
+	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
+	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_489
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB1_670:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_672
+LBB0_491:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_493
 
-LBB1_671:
-	LONG $0x0c58fbc5; BYTE $0xf2   // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf00c // vmovsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB1_671
+LBB0_492:
+	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
+	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_492
 
-LBB1_672:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB1_3
+LBB0_493:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB1_673:
-	LONG $0x0c58fbc5; BYTE $0xf2               // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf00c             // vmovsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x4c58fbc5; WORD $0x08f2             // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x4c58fbc5; WORD $0x10f2             // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x4c58fbc5; WORD $0x18f2             // vaddsd    xmm1, xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB1_673
-	JMP  LBB1_3
+LBB0_494:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_494
+	JMP  LBB0_537
 
-LBB1_50:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB1_82
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB1_517
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x018a                               // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_54
-	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
-	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_200
-	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
-	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_200
+LBB0_101:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_106
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_106
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
 
-LBB1_54:
-	WORD $0xf631 // xor    esi, esi
+LBB0_104:
+	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_104
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB1_334:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_336
+LBB0_106:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_108
 
-LBB1_335:
-	LONG $0x321cb60f // movzx    ebx, byte [rdx + rsi]
-	WORD $0xc328     // sub    bl, al
-	LONG $0x301c8841 // mov    byte [r8 + rsi], bl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc18348 // add    rcx, -1
-	JNE  LBB1_335
+LBB0_107:
+	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
+	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_107
 
-LBB1_336:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB1_517
+LBB0_108:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB1_337:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+LBB0_109:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_337
-	JMP  LBB1_517
+	JNE  LBB0_109
+	JMP  LBB0_537
 
-LBB1_55:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_85
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_517
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_59
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_203
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_203
+LBB0_360:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_365
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_365
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	WORD $0xff31             // xor    edi, edi
 
-LBB1_59:
-	WORD $0xf631 // xor    esi, esi
+LBB0_363:
+	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
+	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
+	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
+	LONG $0x20c78348                           // add    rdi, 32
+	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
+	JNE  LBB0_363
+	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
+	JE   LBB0_537
 
-LBB1_342:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_344
+LBB0_365:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
+	LONG $0x03e08348         // and    rax, 3
+	JE   LBB0_367
 
-LBB1_343:
-	LONG $0xf21c8b48         // mov    rbx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc3 // sub    rbx, rax
-	LONG $0xf01c8949         // mov    qword [r8 + 8*rsi], rbx
+LBB0_366:
+	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
+	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
+	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc18348         // add    rcx, -1
-	JNE  LBB1_343
+	LONG $0xffc08348         // add    rax, -1
+	JNE  LBB0_366
 
-LBB1_344:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB1_517
+LBB0_367:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_537
 
-LBB1_345:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+LBB0_368:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_345
-	JMP  LBB1_517
-
-LBB1_60:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB1_110
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB1_474
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8a44; BYTE $0x31                   // mov    r14b, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_64
-	LONG $0x12048d4a                           // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
-	JBE  LBB1_260
-	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB1_260
-
-LBB1_64:
-	WORD $0xf631 // xor    esi, esi
+	JNE  LBB0_368
 
-LBB1_414:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_416
-
-LBB1_415:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0044; BYTE $0xf0 // add    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_415
+LBB0_537:
+	VZEROUPPER
+	RET
 
-LBB1_416:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_474
+TEXT ·_arithmetic_arr_scalar_avx2(SB), $0-48
 
-LBB1_417:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_417
-	JMP  LBB1_474
+	MOVQ typ+0(FP), DI
+	MOVQ op+8(FP), SI
+	MOVQ inLeft+16(FP), DX
+	MOVQ inRight+24(FP), CX
+	MOVQ out+32(FP), R8
+	MOVQ len+40(FP), R9
 
-LBB1_65:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_113
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_474
+	LONG $0x01fe8040         // cmp    sil, 1
+	JG   LBB1_11
+	WORD $0x8440; BYTE $0xf6 // test    sil, sil
+	JE   LBB1_21
+	LONG $0x01fe8040         // cmp    sil, 1
+	JNE  LBB1_737
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_37
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_65
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_105
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_108
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
+	JLE  LBB1_737
+	WORD $0x018b             // mov    eax, dword [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_69
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_263
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_263
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_10
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_297
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_297
 
-LBB1_69:
+LBB1_10:
 	WORD $0xf631 // xor    esi, esi
 
+LBB1_421:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_423
+
 LBB1_422:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_424
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101             // add    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_422
 
 LBB1_423:
-	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0 // add    rax, r14
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_423
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
 LBB1_424:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_474
-
-LBB1_425:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_425
-	JMP  LBB1_474
+	JNE  LBB1_424
+	JMP  LBB1_737
 
-LBB1_70:
+LBB1_11:
+	LONG $0x02fe8040         // cmp    sil, 2
+	JE   LBB1_29
+	LONG $0x03fe8040         // cmp    sil, 3
+	JNE  LBB1_737
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_44
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_70
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_111
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_114
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	JLE  LBB1_737
+	WORD $0x018b             // mov    eax, dword [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_72
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	JB   LBB1_20
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_206
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	JBE  LBB1_300
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
 	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_206
+	JBE  LBB1_300
 
-LBB1_72:
+LBB1_20:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_350:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_352
+LBB1_429:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_431
 
-LBB1_351:
-	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
-	WORD $0xc329                 // sub    ebx, eax
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_351
+LBB1_430:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129             // sub    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_430
 
-LBB1_352:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB1_517
+LBB1_431:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_353:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_353
-	JMP  LBB1_517
+LBB1_432:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_432
+	JMP  LBB1_737
 
-LBB1_73:
+LBB1_21:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_51
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_75
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_117
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_120
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	JLE  LBB1_737
+	WORD $0x018b             // mov    eax, dword [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_75
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	JB   LBB1_28
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_209
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	JBE  LBB1_303
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
 	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_209
+	JBE  LBB1_303
 
-LBB1_75:
+LBB1_28:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_358:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_360
+LBB1_437:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_439
 
-LBB1_359:
-	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
-	WORD $0xc329                 // sub    ebx, eax
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_359
+LBB1_438:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101             // add    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_438
 
-LBB1_360:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB1_517
+LBB1_439:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_361:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_361
-	JMP  LBB1_517
+LBB1_440:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_440
+	JMP  LBB1_737
 
-LBB1_76:
+LBB1_29:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_58
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_80
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_123
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_126
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	JLE  LBB1_737
+	WORD $0x018b             // mov    eax, dword [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_78
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_36
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_212
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	JBE  LBB1_306
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
 	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_212
+	JBE  LBB1_306
 
-LBB1_78:
+LBB1_36:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_366:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_368
+LBB1_445:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_447
 
-LBB1_367:
-	LONG $0xf21c8b48         // mov    rbx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc3 // sub    rbx, rax
-	LONG $0xf01c8949         // mov    qword [r8 + 8*rsi], rbx
+LBB1_446:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129             // sub    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc18348         // add    rcx, -1
-	JNE  LBB1_367
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_446
 
-LBB1_368:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB1_517
+LBB1_447:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_369:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+LBB1_448:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_369
-	JMP  LBB1_517
+	JNE  LBB1_448
+	JMP  LBB1_737
 
-LBB1_79:
+LBB1_37:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_85
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_129
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_132
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
+	JLE  LBB1_737
+	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
 	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_81
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_43
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
 	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_215
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	JBE  LBB1_309
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
 	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_215
+	JBE  LBB1_309
 
-LBB1_81:
+LBB1_43:
 	WORD $0xc931 // xor    ecx, ecx
 
-LBB1_374:
+LBB1_453:
 	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
 	WORD $0xf748; BYTE $0xd6 // not    rsi
 	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
 	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_376
+	JE   LBB1_455
 
-LBB1_375:
-	LONG $0x0c10fac5; BYTE $0x8a   // vmovss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85cf2c5               // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
+LBB1_454:
+	LONG $0x0c58fbc5; BYTE $0xca   // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
+	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
 	LONG $0x01c18348               // add    rcx, 1
 	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_375
+	JNE  LBB1_454
 
-LBB1_376:
+LBB1_455:
 	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_517
+	JB   LBB1_737
 
-LBB1_377:
-	LONG $0x0c10fac5; BYTE $0x8a               // vmovss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c10fac5; WORD $0x048a             // vmovss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c10fac5; WORD $0x088a             // vmovss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c10fac5; WORD $0x0c8a             // vmovss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
+LBB1_456:
+	LONG $0x0c58fbc5; BYTE $0xca               // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
+	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c58fbc5; WORD $0x08ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 8]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c58fbc5; WORD $0x10ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 16]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c58fbc5; WORD $0x18ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 24]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
 	LONG $0x04c18348                           // add    rcx, 4
 	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_377
-	JMP  LBB1_517
+	JNE  LBB1_456
+	JMP  LBB1_737
+
+LBB1_44:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_90
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_135
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_138
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_50
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_312
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_312
+
+LBB1_50:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_461:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_463
+
+LBB1_462:
+	LONG $0x0c10fbc5; BYTE $0xca   // vmovsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85cf3c5               // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_462
+
+LBB1_463:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_737
+
+LBB1_464:
+	LONG $0x0c10fbc5; BYTE $0xca               // vmovsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c10fbc5; WORD $0x08ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 8]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c10fbc5; WORD $0x10ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 16]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c10fbc5; WORD $0x18ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 24]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_464
+	JMP  LBB1_737
+
+LBB1_51:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_95
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_141
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_144
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_57
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_315
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_315
+
+LBB1_57:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_469:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_471
+
+LBB1_470:
+	LONG $0x0c58fbc5; BYTE $0xca   // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
+	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_470
+
+LBB1_471:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_737
+
+LBB1_472:
+	LONG $0x0c58fbc5; BYTE $0xca               // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
+	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c58fbc5; WORD $0x08ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 8]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c58fbc5; WORD $0x10ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 16]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c58fbc5; WORD $0x18ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 24]
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_472
+	JMP  LBB1_737
+
+LBB1_58:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_100
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_147
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_150
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_64
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_318
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_318
+
+LBB1_64:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_477:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_479
+
+LBB1_478:
+	LONG $0x0c10fbc5; BYTE $0xca   // vmovsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85cf3c5               // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_478
+
+LBB1_479:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_737
+
+LBB1_480:
+	LONG $0x0c10fbc5; BYTE $0xca               // vmovsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c10fbc5; WORD $0x08ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 8]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c10fbc5; WORD $0x10ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 16]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c10fbc5; WORD $0x18ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 24]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_480
+	JMP  LBB1_737
 
-LBB1_82:
+LBB1_65:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB1_153
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_517
+	JLE  LBB1_737
 	WORD $0x018a                               // mov    al, byte [rcx]
 	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
 	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_84
+	JB   LBB1_69
 	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
 	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
-	JBE  LBB1_218
+	JBE  LBB1_321
 	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
 	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
-	JBE  LBB1_218
+	JBE  LBB1_321
 
-LBB1_84:
+LBB1_69:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_382:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_384
+LBB1_485:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_487
 
-LBB1_383:
-	LONG $0x321cb60f // movzx    ebx, byte [rdx + rsi]
-	WORD $0xc328     // sub    bl, al
-	LONG $0x301c8841 // mov    byte [r8 + rsi], bl
+LBB1_486:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100     // add    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
 	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc18348 // add    rcx, -1
-	JNE  LBB1_383
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_486
 
-LBB1_384:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB1_517
+LBB1_487:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_385:
+LBB1_488:
 	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
 	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
 	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
 	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_385
-	JMP  LBB1_517
-
-LBB1_85:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x018b             // mov    eax, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_87
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_221
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_221
+	JNE  LBB1_488
+	JMP  LBB1_737
 
-LBB1_87:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_390:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_392
+LBB1_70:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB1_156
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB1_737
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018a                               // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_74
+	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
+	JBE  LBB1_324
+	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
+	JBE  LBB1_324
 
-LBB1_391:
-	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
-	WORD $0xc329             // sub    ebx, eax
-	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc18348         // add    rcx, -1
-	JNE  LBB1_391
+LBB1_74:
+	WORD $0xf631 // xor    esi, esi
 
-LBB1_392:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB1_517
+LBB1_493:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_495
 
-LBB1_393:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+LBB1_494:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128     // sub    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_494
+
+LBB1_495:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_496:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_393
-	JMP  LBB1_517
+	JNE  LBB1_496
+	JMP  LBB1_737
 
-LBB1_88:
+LBB1_75:
 	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB1_128
+	JE   LBB1_159
 	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB1_3
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8a44; BYTE $0x31                   // mov    r14b, byte [rcx]
+	JLE  LBB1_737
+	WORD $0x018a                               // mov    al, byte [rcx]
 	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
 	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_92
-	LONG $0x12048d4a                           // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
-	JBE  LBB1_290
-	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB1_290
+	JB   LBB1_79
+	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
+	JBE  LBB1_327
+	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
+	JBE  LBB1_327
 
-LBB1_92:
+LBB1_79:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_678:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_680
+LBB1_501:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_503
 
-LBB1_679:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0044; BYTE $0xf0 // add    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_679
+LBB1_502:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100     // add    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_502
 
-LBB1_680:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_3
+LBB1_503:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_681:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+LBB1_504:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_681
-	JMP  LBB1_3
+	JNE  LBB1_504
+	JMP  LBB1_737
 
-LBB1_93:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_131
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_3
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_97
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_293
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_293
+LBB1_80:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB1_162
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB1_737
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018a                               // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_84
+	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
+	JBE  LBB1_330
+	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
+	JBE  LBB1_330
 
-LBB1_97:
+LBB1_84:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_686:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_688
+LBB1_509:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_511
 
-LBB1_687:
-	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0 // add    rax, r14
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_687
+LBB1_510:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128     // sub    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_510
 
-LBB1_688:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_3
+LBB1_511:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_689:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+LBB1_512:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_689
-	JMP  LBB1_3
+	JNE  LBB1_512
+	JMP  LBB1_737
 
-LBB1_98:
+LBB1_85:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_165
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	JLE  LBB1_737
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_100
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_266
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_266
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_89
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_333
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_333
 
-LBB1_100:
+LBB1_89:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_430:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB1_432
+LBB1_517:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_519
 
-LBB1_431:
-	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
-	LONG $0xf3014466             // add    bx, r14w
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB1_431
+LBB1_518:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_518
 
-LBB1_432:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_474
+LBB1_519:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_433:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_433
-	JMP  LBB1_474
+LBB1_520:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_520
+	JMP  LBB1_737
 
-LBB1_101:
+LBB1_90:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_168
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	JLE  LBB1_737
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_103
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_269
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_269
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_94
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_336
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_336
 
-LBB1_103:
+LBB1_94:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_438:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB1_440
+LBB1_525:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_527
 
-LBB1_439:
-	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
-	LONG $0xf3014466             // add    bx, r14w
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB1_439
+LBB1_526:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_526
 
-LBB1_440:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_474
+LBB1_527:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_441:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_441
-	JMP  LBB1_474
+LBB1_528:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_528
+	JMP  LBB1_737
 
-LBB1_104:
+LBB1_95:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_171
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
+	JLE  LBB1_737
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_106
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_272
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_272
+	JB   LBB1_99
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_339
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_339
 
-LBB1_106:
+LBB1_99:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_446:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_448
+LBB1_533:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_535
 
-LBB1_447:
-	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0 // add    rax, r14
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+LBB1_534:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_447
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_534
 
-LBB1_448:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_474
+LBB1_535:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_449:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+LBB1_536:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_449
-	JMP  LBB1_474
+	JNE  LBB1_536
+	JMP  LBB1_737
 
-LBB1_107:
+LBB1_100:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_174
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_109
-	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_275
-	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_275
-
-LBB1_109:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_454:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_456
-
-LBB1_455:
-	LONG $0x0c58fac5; BYTE $0xb2   // vaddss    xmm1, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb00c // vmovss    dword [r8 + 4*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB1_455
-
-LBB1_456:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB1_474
-
-LBB1_457:
-	LONG $0x0c58fac5; BYTE $0xb2               // vaddss    xmm1, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb00c             // vmovss    dword [r8 + 4*rsi], xmm1
-	LONG $0x4c58fac5; WORD $0x04b2             // vaddss    xmm1, xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm1
-	LONG $0x4c58fac5; WORD $0x08b2             // vaddss    xmm1, xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm1
-	LONG $0x4c58fac5; WORD $0x0cb2             // vaddss    xmm1, xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB1_457
-	JMP  LBB1_474
-
-LBB1_110:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8a44; BYTE $0x31                   // mov    r14b, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_112
-	LONG $0x12048d4a                           // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
-	JBE  LBB1_278
-	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB1_278
+	JLE  LBB1_737
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_104
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_342
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_342
 
-LBB1_112:
+LBB1_104:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_462:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_464
+LBB1_541:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_543
 
-LBB1_463:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0044; BYTE $0xf0 // add    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
+LBB1_542:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_463
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_542
 
-LBB1_464:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_474
+LBB1_543:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_465:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+LBB1_544:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_465
-	JMP  LBB1_474
+	JNE  LBB1_544
+	JMP  LBB1_737
 
-LBB1_113:
+LBB1_105:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
+	JLE  LBB1_737
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_115
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_281
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_281
+	JB   LBB1_107
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_345
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_345
 
-LBB1_115:
+LBB1_107:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_470:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_472
+LBB1_549:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_551
 
-LBB1_471:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_471
+LBB1_550:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_550
 
-LBB1_472:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_474
+LBB1_551:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_473:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_473
-	JMP  LBB1_474
+LBB1_552:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_552
+	JMP  LBB1_737
 
-LBB1_116:
+LBB1_108:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	JLE  LBB1_737
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_118
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_296
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_296
+	JB   LBB1_110
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_348
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_348
 
-LBB1_118:
+LBB1_110:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_694:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB1_696
+LBB1_557:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_559
 
-LBB1_695:
-	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
-	LONG $0xf3014466             // add    bx, r14w
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+LBB1_558:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
 	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB1_695
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_558
 
-LBB1_696:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_3
+LBB1_559:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_697:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+LBB1_560:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_697
-	JMP  LBB1_3
+	JNE  LBB1_560
+	JMP  LBB1_737
 
-LBB1_119:
+LBB1_111:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	JLE  LBB1_737
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_121
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_299
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_299
+	JB   LBB1_113
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_351
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_351
 
-LBB1_121:
+LBB1_113:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_702:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB1_704
+LBB1_565:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_567
 
-LBB1_703:
-	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
-	LONG $0xf3014466             // add    bx, r14w
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+LBB1_566:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0xc729                 // sub    edi, eax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
 	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB1_703
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_566
 
-LBB1_704:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_3
+LBB1_567:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_705:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+LBB1_568:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_705
-	JMP  LBB1_3
+	JNE  LBB1_568
+	JMP  LBB1_737
 
-LBB1_122:
+LBB1_114:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
+	JLE  LBB1_737
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_124
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_302
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_302
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_116
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_354
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_354
 
-LBB1_124:
+LBB1_116:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_710:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_712
+LBB1_573:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_575
 
-LBB1_711:
-	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0 // add    rax, r14
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_711
+LBB1_574:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0xc729                 // sub    edi, eax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_574
 
-LBB1_712:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_3
+LBB1_575:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_713:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_713
-	JMP  LBB1_3
+LBB1_576:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_576
+	JMP  LBB1_737
 
-LBB1_125:
+LBB1_117:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	JLE  LBB1_737
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_127
-	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_305
-	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_305
+	JB   LBB1_119
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_357
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_357
 
-LBB1_127:
+LBB1_119:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_718:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_720
+LBB1_581:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_583
 
-LBB1_719:
-	LONG $0x0c58fac5; BYTE $0xb2   // vaddss    xmm1, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb00c // vmovss    dword [r8 + 4*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB1_719
+LBB1_582:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_582
 
-LBB1_720:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB1_3
+LBB1_583:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_721:
-	LONG $0x0c58fac5; BYTE $0xb2               // vaddss    xmm1, xmm0, dword [rdx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb00c             // vmovss    dword [r8 + 4*rsi], xmm1
-	LONG $0x4c58fac5; WORD $0x04b2             // vaddss    xmm1, xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm1
-	LONG $0x4c58fac5; WORD $0x08b2             // vaddss    xmm1, xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm1
-	LONG $0x4c58fac5; WORD $0x0cb2             // vaddss    xmm1, xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB1_721
-	JMP  LBB1_3
+LBB1_584:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_584
+	JMP  LBB1_737
 
-LBB1_128:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8a44; BYTE $0x31                   // mov    r14b, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_130
-	LONG $0x12048d4a                           // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
-	JBE  LBB1_308
-	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB1_308
+LBB1_120:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_122
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_360
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_360
 
-LBB1_130:
+LBB1_122:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_726:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_728
+LBB1_589:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_591
 
-LBB1_727:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0044; BYTE $0xf0 // add    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_727
+LBB1_590:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_590
 
-LBB1_728:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_3
+LBB1_591:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_729:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_729
-	JMP  LBB1_3
+LBB1_592:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_592
+	JMP  LBB1_737
 
-LBB1_131:
+LBB1_123:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
+	JLE  LBB1_737
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_133
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_311
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_311
+	JB   LBB1_125
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_363
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_363
 
-LBB1_133:
+LBB1_125:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_734:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_736
+LBB1_597:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_599
 
-LBB1_735:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+LBB1_598:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0xc729                 // sub    edi, eax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_598
+
+LBB1_599:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_600:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_600
+	JMP  LBB1_737
+
+LBB1_126:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_128
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_366
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_366
+
+LBB1_128:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_605:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
+	LONG $0x03e18348         // and    rcx, 3
+	JE   LBB1_607
+
+LBB1_606:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	WORD $0xc729                 // sub    edi, eax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc18348             // add    rcx, -1
+	JNE  LBB1_606
+
+LBB1_607:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_608:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_608
+	JMP  LBB1_737
+
+LBB1_129:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_131
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_369
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_369
+
+LBB1_131:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_613:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_615
+
+LBB1_614:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_735
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_614
 
-LBB1_736:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_3
+LBB1_615:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_737:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+LBB1_616:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_737
-	JMP  LBB1_3
+	JNE  LBB1_616
+	JMP  LBB1_737
 
-LBB1_194:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_314
-	WORD $0x894c; BYTE $0xcb     // mov    rbx, r9
-	LONG $0xfee38348             // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb     // neg    rbx
-	WORD $0xff31                 // xor    edi, edi
+LBB1_132:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_134
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_372
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_372
 
-LBB1_196:
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
-	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
-	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
-	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB1_196
-	JMP  LBB1_315
+LBB1_134:
+	WORD $0xc931 // xor    ecx, ecx
 
-LBB1_197:
-	WORD $0xc189                 // mov    ecx, eax
-	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
-	WORD $0x8948; BYTE $0xf3     // mov    rbx, rsi
-	LONG $0x04ebc148             // shr    rbx, 4
-	LONG $0x01c38348             // add    rbx, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_322
-	WORD $0x8948; BYTE $0xdf     // mov    rdi, rbx
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
+LBB1_621:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_623
 
-LBB1_199:
-	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
-	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
-	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
-	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
-	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
-	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
-	QUAD $0x000080f29410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + 8*rsi + 128]
+LBB1_622:
+	LONG $0x0c58fac5; BYTE $0x8a   // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
+	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_622
+
+LBB1_623:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_737
+
+LBB1_624:
+	LONG $0x0c58fac5; BYTE $0x8a               // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
+	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c58fac5; WORD $0x048a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 4]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c58fac5; WORD $0x088a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 8]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c58fac5; WORD $0x0c8a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 12]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_624
+	JMP  LBB1_737
+
+LBB1_135:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_137
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_375
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_375
+
+LBB1_137:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_629:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_631
+
+LBB1_630:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_630
+
+LBB1_631:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_632:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_632
+	JMP  LBB1_737
+
+LBB1_138:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_140
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_378
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_378
+
+LBB1_140:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_637:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_639
+
+LBB1_638:
+	LONG $0x0c10fac5; BYTE $0x8a   // vmovss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85cf2c5               // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_638
+
+LBB1_639:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_737
+
+LBB1_640:
+	LONG $0x0c10fac5; BYTE $0x8a               // vmovss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c10fac5; WORD $0x048a             // vmovss    xmm1, dword [rdx + 4*rcx + 4]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c10fac5; WORD $0x088a             // vmovss    xmm1, dword [rdx + 4*rcx + 8]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c10fac5; WORD $0x0c8a             // vmovss    xmm1, dword [rdx + 4*rcx + 12]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_640
+	JMP  LBB1_737
+
+LBB1_141:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_143
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_381
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_381
+
+LBB1_143:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_645:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_647
+
+LBB1_646:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_646
+
+LBB1_647:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_648:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_648
+	JMP  LBB1_737
+
+LBB1_144:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_146
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_384
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_384
+
+LBB1_146:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_653:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_655
+
+LBB1_654:
+	LONG $0x0c58fac5; BYTE $0x8a   // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
+	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_654
+
+LBB1_655:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_737
+
+LBB1_656:
+	LONG $0x0c58fac5; BYTE $0x8a               // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
+	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c58fac5; WORD $0x048a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 4]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c58fac5; WORD $0x088a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 8]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c58fac5; WORD $0x0c8a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 12]
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_656
+	JMP  LBB1_737
+
+LBB1_147:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_149
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_387
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_387
+
+LBB1_149:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_661:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_663
+
+LBB1_662:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_662
+
+LBB1_663:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_664:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_664
+	JMP  LBB1_737
+
+LBB1_150:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_152
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_390
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_390
+
+LBB1_152:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_669:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_671
+
+LBB1_670:
+	LONG $0x0c10fac5; BYTE $0x8a   // vmovss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85cf2c5               // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_670
+
+LBB1_671:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_737
+
+LBB1_672:
+	LONG $0x0c10fac5; BYTE $0x8a               // vmovss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c10fac5; WORD $0x048a             // vmovss    xmm1, dword [rdx + 4*rcx + 4]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c10fac5; WORD $0x088a             // vmovss    xmm1, dword [rdx + 4*rcx + 8]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c10fac5; WORD $0x0c8a             // vmovss    xmm1, dword [rdx + 4*rcx + 12]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_672
+	JMP  LBB1_737
+
+LBB1_153:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018a                               // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_155
+	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
+	JBE  LBB1_393
+	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
+	JBE  LBB1_393
+
+LBB1_155:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_677:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_679
+
+LBB1_678:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100     // add    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_678
+
+LBB1_679:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_680:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_680
+	JMP  LBB1_737
+
+LBB1_156:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018a                               // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_158
+	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
+	JBE  LBB1_396
+	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
+	JBE  LBB1_396
+
+LBB1_158:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_685:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_687
+
+LBB1_686:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128     // sub    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_686
+
+LBB1_687:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_688:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_688
+	JMP  LBB1_737
+
+LBB1_159:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018a                               // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_161
+	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
+	JBE  LBB1_399
+	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
+	JBE  LBB1_399
+
+LBB1_161:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_693:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_695
+
+LBB1_694:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100     // add    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_694
+
+LBB1_695:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_696:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_696
+	JMP  LBB1_737
+
+LBB1_162:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018a                               // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB1_164
+	LONG $0x120c8d4a                           // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1                   // cmp    rcx, r8
+	JBE  LBB1_402
+	LONG $0x100c8d4b                           // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1                   // cmp    rcx, rdx
+	JBE  LBB1_402
+
+LBB1_164:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_701:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_703
+
+LBB1_702:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128     // sub    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_702
+
+LBB1_703:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_704:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_704
+	JMP  LBB1_737
+
+LBB1_165:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_167
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_405
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_405
+
+LBB1_167:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_709:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_711
+
+LBB1_710:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101             // add    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_710
+
+LBB1_711:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_712:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_712
+	JMP  LBB1_737
+
+LBB1_168:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_170
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_408
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_408
+
+LBB1_170:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_717:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_719
+
+LBB1_718:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129             // sub    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_718
+
+LBB1_719:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_720:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_720
+	JMP  LBB1_737
+
+LBB1_171:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_173
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_411
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_411
+
+LBB1_173:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_725:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_727
+
+LBB1_726:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101             // add    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_726
+
+LBB1_727:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_728:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_728
+	JMP  LBB1_737
+
+LBB1_174:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_176
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_414
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_414
+
+LBB1_176:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_733:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_735
+
+LBB1_734:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129             // sub    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_734
+
+LBB1_735:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_736:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_736
+	JMP  LBB1_737
+
+LBB1_297:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_417
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_299:
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_299
+	JMP  LBB1_418
+
+LBB1_300:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_425
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_302:
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_302
+	JMP  LBB1_426
+
+LBB1_303:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_433
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_305:
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_305
+	JMP  LBB1_434
+
+LBB1_306:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_441
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_308:
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_308
+	JMP  LBB1_442
+
+LBB1_309:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_449
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_311:
+	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
+	LONG $0x6c58f5c5; WORD $0x60fa             // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080fa9458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa9c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0faa458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 224]
+	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_311
+	JMP  LBB1_450
+
+LBB1_312:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_457
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+
+LBB1_314:
+	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
+	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
+	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
+	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
+	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
+	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
+	QUAD $0x000080f29410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + 8*rsi + 128]
+	QUAD $0x0000a0f29c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + 8*rsi + 160]
+	QUAD $0x0000c0f2a410fdc5; BYTE $0x00       // vmovupd    ymm4, yword [rdx + 8*rsi + 192]
+	QUAD $0x0000e0f2ac10fdc5; BYTE $0x00       // vmovupd    ymm5, yword [rdx + 8*rsi + 224]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
+	QUAD $0x0080f094117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 128], ymm2
+	QUAD $0x00a0f09c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 160], ymm3
+	QUAD $0x00c0f0a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 192], ymm4
+	QUAD $0x00e0f0ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 224], ymm5
+	LONG $0x20c68348                           // add    rsi, 32
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_314
+	JMP  LBB1_458
+
+LBB1_315:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_465
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_317:
+	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
+	LONG $0x6c58f5c5; WORD $0x60fa             // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080fa9458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa9c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0faa458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 224]
+	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_317
+	JMP  LBB1_466
+
+LBB1_318:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf0     // and    ecx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0718d48             // lea    rsi, [rcx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_473
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+
+LBB1_320:
+	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
+	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
+	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
+	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
+	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
+	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
+	QUAD $0x000080f29410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + 8*rsi + 128]
 	QUAD $0x0000a0f29c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + 8*rsi + 160]
 	QUAD $0x0000c0f2a410fdc5; BYTE $0x00       // vmovupd    ymm4, yword [rdx + 8*rsi + 192]
 	QUAD $0x0000e0f2ac10fdc5; BYTE $0x00       // vmovupd    ymm5, yword [rdx + 8*rsi + 224]
@@ -5428,56 +6237,677 @@ LBB1_199:
 	QUAD $0x00e0f0ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 224], ymm5
 	LONG $0x20c68348                           // add    rsi, 32
 	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_199
-	JMP  LBB1_323
+	JNE  LBB1_320
+	JMP  LBB1_474
+
+LBB1_321:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_481
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_323:
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_323
+	JMP  LBB1_482
+
+LBB1_324:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_489
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_326:
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_326
+	JMP  LBB1_490
+
+LBB1_327:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_497
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_329:
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_329
+	JMP  LBB1_498
+
+LBB1_330:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_505
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_332:
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_332
+	JMP  LBB1_506
+
+LBB1_333:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_513
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_335:
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_335
+	JMP  LBB1_514
+
+LBB1_336:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_521
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_338:
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_338
+	JMP  LBB1_522
+
+LBB1_339:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_529
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_341:
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_341
+	JMP  LBB1_530
+
+LBB1_342:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_537
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_344:
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_344
+	JMP  LBB1_538
+
+LBB1_345:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_545
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_347:
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_347
+	JMP  LBB1_546
 
-LBB1_200:
+LBB1_348:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
 	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
 	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x05e9c149             // shr    r9, 5
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_330
-	WORD $0x894c; BYTE $0xcb     // mov    rbx, r9
-	LONG $0xfee38348             // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	JE   LBB1_553
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
 	WORD $0xff31                 // xor    edi, edi
 
-LBB1_202:
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB1_202
-	JMP  LBB1_331
+LBB1_350:
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_350
+	JMP  LBB1_554
+
+LBB1_351:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_561
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_353:
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
+	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_353
+	JMP  LBB1_562
+
+LBB1_354:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_569
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_356:
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
+	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_356
+	JMP  LBB1_570
+
+LBB1_357:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_577
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_359:
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_359
+	JMP  LBB1_578
+
+LBB1_360:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_585
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_362:
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_362
+	JMP  LBB1_586
+
+LBB1_363:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_593
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_365:
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
+	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_365
+	JMP  LBB1_594
+
+LBB1_366:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_601
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_368:
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
+	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_368
+	JMP  LBB1_602
+
+LBB1_369:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_609
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_371:
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_371
+	JMP  LBB1_610
+
+LBB1_372:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_617
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_374:
+	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
+	LONG $0x6c58f4c5; WORD $0x60ba             // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080ba9458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba9c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0baa458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_374
+	JMP  LBB1_618
 
-LBB1_203:
+LBB1_375:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0     // and    esi, -16
 	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
@@ -5487,13 +6917,13 @@ LBB1_203:
 	LONG $0x04e9c149             // shr    r9, 4
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_338
-	WORD $0x894c; BYTE $0xcb     // mov    rbx, r9
-	LONG $0xfee38348             // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	JE   LBB1_625
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
 	WORD $0xff31                 // xor    edi, edi
 
-LBB1_205:
+LBB1_377:
 	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
 	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
 	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
@@ -5506,92 +6936,144 @@ LBB1_205:
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_377
+	JMP  LBB1_626
+
+LBB1_378:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_633
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
+
+LBB1_380:
+	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
+	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
+	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
+	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
+	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
+	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm5
+	QUAD $0x000080b29410fcc5; BYTE $0x00       // vmovups    ymm2, yword [rdx + 4*rsi + 128]
+	QUAD $0x0000a0b29c10fcc5; BYTE $0x00       // vmovups    ymm3, yword [rdx + 4*rsi + 160]
+	QUAD $0x0000c0b2a410fcc5; BYTE $0x00       // vmovups    ymm4, yword [rdx + 4*rsi + 192]
+	QUAD $0x0000e0b2ac10fcc5; BYTE $0x00       // vmovups    ymm5, yword [rdx + 4*rsi + 224]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
+	QUAD $0x0080b094117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 128], ymm2
+	QUAD $0x00a0b09c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 160], ymm3
+	QUAD $0x00c0b0a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 192], ymm4
+	QUAD $0x00e0b0ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 224], ymm5
+	LONG $0x40c68348                           // add    rsi, 64
+	LONG $0x02c78348                           // add    rdi, 2
+	JNE  LBB1_380
+	JMP  LBB1_634
+
+LBB1_381:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_641
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_383:
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
 	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
 	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
 	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
 	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
 	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB1_205
-	JMP  LBB1_339
-
-LBB1_206:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_346
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_208:
-	LONG $0x0c6ffec5; BYTE $0x5a               // vmovdqu    ymm1, yword [rdx + 2*rbx]
-	LONG $0x546ffec5; WORD $0x205a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
-	LONG $0x4c6ffec5; WORD $0x405a             // vmovdqu    ymm1, yword [rdx + 2*rbx + 64]
-	LONG $0x546ffec5; WORD $0x605a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 96]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_208
-	JMP  LBB1_347
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_383
+	JMP  LBB1_642
 
-LBB1_209:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+LBB1_384:
+	WORD $0xc189                 // mov    ecx, eax
+	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
 	LONG $0x05e9c149             // shr    r9, 5
 	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_354
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB1_649
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
 
-LBB1_211:
-	LONG $0x0c6ffec5; BYTE $0x5a               // vmovdqu    ymm1, yword [rdx + 2*rbx]
-	LONG $0x546ffec5; WORD $0x205a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
-	LONG $0x4c6ffec5; WORD $0x405a             // vmovdqu    ymm1, yword [rdx + 2*rbx + 64]
-	LONG $0x546ffec5; WORD $0x605a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 96]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_211
-	JMP  LBB1_355
+LBB1_386:
+	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
+	LONG $0x6c58f4c5; WORD $0x60ba             // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080ba9458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba9c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0baa458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_386
+	JMP  LBB1_650
 
-LBB1_212:
+LBB1_387:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0     // and    esi, -16
 	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
@@ -5601,13 +7083,13 @@ LBB1_212:
 	LONG $0x04e9c149             // shr    r9, 4
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_362
-	WORD $0x894c; BYTE $0xcb     // mov    rbx, r9
-	LONG $0xfee38348             // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	JE   LBB1_657
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
 	WORD $0xff31                 // xor    edi, edi
 
-LBB1_214:
+LBB1_389:
 	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
 	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
 	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
@@ -5633,26 +7115,26 @@ LBB1_214:
 	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
 	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
 	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB1_214
-	JMP  LBB1_363
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_389
+	JMP  LBB1_658
 
-LBB1_215:
+LBB1_390:
 	WORD $0xc189                 // mov    ecx, eax
 	WORD $0xe183; BYTE $0xe0     // and    ecx, -32
 	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
 	LONG $0xe0718d48             // lea    rsi, [rcx - 32]
-	WORD $0x8948; BYTE $0xf3     // mov    rbx, rsi
-	LONG $0x05ebc148             // shr    rbx, 5
-	LONG $0x01c38348             // add    rbx, 1
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB1_370
-	WORD $0x8948; BYTE $0xdf     // mov    rdi, rbx
+	JE   LBB1_665
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
 	LONG $0xfee78348             // and    rdi, -2
 	WORD $0xf748; BYTE $0xdf     // neg    rdi
 	WORD $0xf631                 // xor    esi, esi
 
-LBB1_217:
+LBB1_392:
 	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
 	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
 	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
@@ -5679,56 +7161,300 @@ LBB1_217:
 	QUAD $0x00e0b0ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 224], ymm5
 	LONG $0x40c68348                           // add    rsi, 64
 	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_217
-	JMP  LBB1_371
+	JNE  LBB1_392
+	JMP  LBB1_666
+
+LBB1_393:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_673
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_395:
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_395
+	JMP  LBB1_674
+
+LBB1_396:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_681
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_398:
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_398
+	JMP  LBB1_682
+
+LBB1_399:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_689
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_401:
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_401
+	JMP  LBB1_690
+
+LBB1_402:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_697
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_404:
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_404
+	JMP  LBB1_698
+
+LBB1_405:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_705
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_407:
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_407
+	JMP  LBB1_706
+
+LBB1_408:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_713
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_410:
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_410
+	JMP  LBB1_714
 
-LBB1_218:
+LBB1_411:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
 	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x804e8d48             // lea    rcx, [rsi - 128]
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
 	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x05e9c149             // shr    r9, 5
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_378
-	WORD $0x894c; BYTE $0xcb     // mov    rbx, r9
-	LONG $0xfee38348             // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	JE   LBB1_721
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
 	WORD $0xff31                 // xor    edi, edi
 
-LBB1_220:
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
-	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
-	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
-	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
-	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB1_220
-	JMP  LBB1_379
+LBB1_413:
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_413
+	JMP  LBB1_722
 
-LBB1_221:
+LBB1_414:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
 	LONG $0xc06ef9c5             // vmovd    xmm0, eax
@@ -5738,13 +7464,13 @@ LBB1_221:
 	LONG $0x05e9c149             // shr    r9, 5
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_386
-	WORD $0x894c; BYTE $0xcb     // mov    rbx, r9
-	LONG $0xfee38348             // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb     // neg    rbx
+	JE   LBB1_729
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
 	WORD $0xff31                 // xor    edi, edi
 
-LBB1_223:
+LBB1_416:
 	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
 	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
 	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
@@ -5770,740 +7496,80 @@ LBB1_223:
 	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
 	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
 	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB1_223
-	JMP  LBB1_387
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_416
+	JMP  LBB1_730
 
-LBB1_254:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_394
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_256:
-	LONG $0x0cfefdc5; BYTE $0x9a               // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx]
-	LONG $0x54fefdc5; WORD $0x209a             // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 32]
-	LONG $0x5cfefdc5; WORD $0x409a             // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 64]
-	LONG $0x64fefdc5; WORD $0x609a             // vpaddd    ymm4, ymm0, yword [rdx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
-	QUAD $0x0000809a8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx + 128]
-	QUAD $0x0000a09a94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 160]
-	QUAD $0x0000c09a9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 192]
-	QUAD $0x0000e09aa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rbx + 224]
-	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
-	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
-	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
-	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_256
-	JMP  LBB1_395
-
-LBB1_257:
-	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
-	LONG $0x04eac149             // shr    r10, 4
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_402
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_259:
-	LONG $0x1458f5c5; BYTE $0xda               // vaddpd    ymm2, ymm1, yword [rdx + 8*rbx]
-	LONG $0x5c58f5c5; WORD $0x20da             // vaddpd    ymm3, ymm1, yword [rdx + 8*rbx + 32]
-	LONG $0x6458f5c5; WORD $0x40da             // vaddpd    ymm4, ymm1, yword [rdx + 8*rbx + 64]
-	LONG $0x6c58f5c5; WORD $0x60da             // vaddpd    ymm5, ymm1, yword [rdx + 8*rbx + 96]
-	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
-	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xd86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm5
-	QUAD $0x000080da9458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rdx + 8*rbx + 128]
-	QUAD $0x0000a0da9c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rdx + 8*rbx + 160]
-	QUAD $0x0000c0daa458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rdx + 8*rbx + 192]
-	QUAD $0x0000e0daac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rdx + 8*rbx + 224]
-	QUAD $0x0080d894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 128], ymm2
-	QUAD $0x00a0d89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 160], ymm3
-	QUAD $0x00c0d8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 192], ymm4
-	QUAD $0x00e0d8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 224], ymm5
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_259
-	JMP  LBB1_403
-
-LBB1_260:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80468d48             // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x07ebc149             // shr    r11, 7
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_410
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_262:
-	LONG $0x0cfcfdc5; BYTE $0x1a               // vpaddb    ymm1, ymm0, yword [rdx + rbx]
-	LONG $0x54fcfdc5; WORD $0x201a             // vpaddb    ymm2, ymm0, yword [rdx + rbx + 32]
-	LONG $0x5cfcfdc5; WORD $0x401a             // vpaddb    ymm3, ymm0, yword [rdx + rbx + 64]
-	LONG $0x64fcfdc5; WORD $0x601a             // vpaddb    ymm4, ymm0, yword [rdx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
-	QUAD $0x0000801a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rbx + 128]
-	QUAD $0x0000a01a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rbx + 160]
-	QUAD $0x0000c01a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rbx + 192]
-	QUAD $0x0000e01aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rbx + 224]
-	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
-	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
-	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
-	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
-	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_262
-	JMP  LBB1_411
-
-LBB1_263:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_418
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_265:
-	LONG $0x0cd4fdc5; BYTE $0xda               // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx]
-	LONG $0x54d4fdc5; WORD $0x20da             // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 32]
-	LONG $0x5cd4fdc5; WORD $0x40da             // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 64]
-	LONG $0x64d4fdc5; WORD $0x60da             // vpaddq    ymm4, ymm0, yword [rdx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
-	QUAD $0x000080da8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx + 128]
-	QUAD $0x0000a0da94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 160]
-	QUAD $0x0000c0da9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 192]
-	QUAD $0x0000e0daa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rbx + 224]
-	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
-	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
-	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
-	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_265
-	JMP  LBB1_419
-
-LBB1_266:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_426
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_268:
-	LONG $0x0cfdfdc5; BYTE $0x5a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx]
-	LONG $0x54fdfdc5; WORD $0x205a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x405a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx + 64]
-	LONG $0x54fdfdc5; WORD $0x605a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_268
-	JMP  LBB1_427
-
-LBB1_269:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_434
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_271:
-	LONG $0x0cfdfdc5; BYTE $0x5a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx]
-	LONG $0x54fdfdc5; WORD $0x205a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x405a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx + 64]
-	LONG $0x54fdfdc5; WORD $0x605a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_271
-	JMP  LBB1_435
-
-LBB1_272:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_442
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_274:
-	LONG $0x0cd4fdc5; BYTE $0xda               // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx]
-	LONG $0x54d4fdc5; WORD $0x20da             // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 32]
-	LONG $0x5cd4fdc5; WORD $0x40da             // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 64]
-	LONG $0x64d4fdc5; WORD $0x60da             // vpaddq    ymm4, ymm0, yword [rdx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
-	QUAD $0x000080da8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx + 128]
-	QUAD $0x0000a0da94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 160]
-	QUAD $0x0000c0da9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 192]
-	QUAD $0x0000e0daa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rbx + 224]
-	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
-	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
-	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
-	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_274
-	JMP  LBB1_443
-
-LBB1_275:
-	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
-	LONG $0x05eac149             // shr    r10, 5
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_450
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_277:
-	LONG $0x1458f4c5; BYTE $0x9a               // vaddps    ymm2, ymm1, yword [rdx + 4*rbx]
-	LONG $0x5c58f4c5; WORD $0x209a             // vaddps    ymm3, ymm1, yword [rdx + 4*rbx + 32]
-	LONG $0x6458f4c5; WORD $0x409a             // vaddps    ymm4, ymm1, yword [rdx + 4*rbx + 64]
-	LONG $0x6c58f4c5; WORD $0x609a             // vaddps    ymm5, ymm1, yword [rdx + 4*rbx + 96]
-	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
-	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
-	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
-	LONG $0x117cc1c4; WORD $0x986c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm5
-	QUAD $0x0000809a9458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rdx + 4*rbx + 128]
-	QUAD $0x0000a09a9c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rdx + 4*rbx + 160]
-	QUAD $0x0000c09aa458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rdx + 4*rbx + 192]
-	QUAD $0x0000e09aac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rdx + 4*rbx + 224]
-	QUAD $0x00809894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 128], ymm2
-	QUAD $0x00a0989c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 160], ymm3
-	QUAD $0x00c098a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 192], ymm4
-	QUAD $0x00e098ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 224], ymm5
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_277
-	JMP  LBB1_451
-
-LBB1_278:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80468d48             // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x07ebc149             // shr    r11, 7
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_458
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_280:
-	LONG $0x0cfcfdc5; BYTE $0x1a               // vpaddb    ymm1, ymm0, yword [rdx + rbx]
-	LONG $0x54fcfdc5; WORD $0x201a             // vpaddb    ymm2, ymm0, yword [rdx + rbx + 32]
-	LONG $0x5cfcfdc5; WORD $0x401a             // vpaddb    ymm3, ymm0, yword [rdx + rbx + 64]
-	LONG $0x64fcfdc5; WORD $0x601a             // vpaddb    ymm4, ymm0, yword [rdx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
-	QUAD $0x0000801a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rbx + 128]
-	QUAD $0x0000a01a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rbx + 160]
-	QUAD $0x0000c01a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rbx + 192]
-	QUAD $0x0000e01aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rbx + 224]
-	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
-	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
-	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
-	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
-	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_280
-	JMP  LBB1_459
-
-LBB1_281:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_466
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_283:
-	LONG $0x0cfefdc5; BYTE $0x9a               // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx]
-	LONG $0x54fefdc5; WORD $0x209a             // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 32]
-	LONG $0x5cfefdc5; WORD $0x409a             // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 64]
-	LONG $0x64fefdc5; WORD $0x609a             // vpaddd    ymm4, ymm0, yword [rdx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
-	QUAD $0x0000809a8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx + 128]
-	QUAD $0x0000a09a94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 160]
-	QUAD $0x0000c09a9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 192]
-	QUAD $0x0000e09aa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rbx + 224]
-	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
-	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
-	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
-	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_283
-	JMP  LBB1_467
-
-LBB1_284:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_658
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_286:
-	LONG $0x0cfefdc5; BYTE $0x9a               // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx]
-	LONG $0x54fefdc5; WORD $0x209a             // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 32]
-	LONG $0x5cfefdc5; WORD $0x409a             // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 64]
-	LONG $0x64fefdc5; WORD $0x609a             // vpaddd    ymm4, ymm0, yword [rdx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
-	QUAD $0x0000809a8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx + 128]
-	QUAD $0x0000a09a94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 160]
-	QUAD $0x0000c09a9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 192]
-	QUAD $0x0000e09aa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rbx + 224]
-	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
-	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
-	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
-	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_286
-	JMP  LBB1_659
-
-LBB1_287:
-	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
-	LONG $0x04eac149             // shr    r10, 4
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_666
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_289:
-	LONG $0x1458f5c5; BYTE $0xda               // vaddpd    ymm2, ymm1, yword [rdx + 8*rbx]
-	LONG $0x5c58f5c5; WORD $0x20da             // vaddpd    ymm3, ymm1, yword [rdx + 8*rbx + 32]
-	LONG $0x6458f5c5; WORD $0x40da             // vaddpd    ymm4, ymm1, yword [rdx + 8*rbx + 64]
-	LONG $0x6c58f5c5; WORD $0x60da             // vaddpd    ymm5, ymm1, yword [rdx + 8*rbx + 96]
-	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
-	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xd86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm5
-	QUAD $0x000080da9458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rdx + 8*rbx + 128]
-	QUAD $0x0000a0da9c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rdx + 8*rbx + 160]
-	QUAD $0x0000c0daa458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rdx + 8*rbx + 192]
-	QUAD $0x0000e0daac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rdx + 8*rbx + 224]
-	QUAD $0x0080d894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 128], ymm2
-	QUAD $0x00a0d89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 160], ymm3
-	QUAD $0x00c0d8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 192], ymm4
-	QUAD $0x00e0d8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 224], ymm5
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_289
-	JMP  LBB1_667
-
-LBB1_290:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80468d48             // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x07ebc149             // shr    r11, 7
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_674
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_292:
-	LONG $0x0cfcfdc5; BYTE $0x1a               // vpaddb    ymm1, ymm0, yword [rdx + rbx]
-	LONG $0x54fcfdc5; WORD $0x201a             // vpaddb    ymm2, ymm0, yword [rdx + rbx + 32]
-	LONG $0x5cfcfdc5; WORD $0x401a             // vpaddb    ymm3, ymm0, yword [rdx + rbx + 64]
-	LONG $0x64fcfdc5; WORD $0x601a             // vpaddb    ymm4, ymm0, yword [rdx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
-	QUAD $0x0000801a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rbx + 128]
-	QUAD $0x0000a01a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rbx + 160]
-	QUAD $0x0000c01a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rbx + 192]
-	QUAD $0x0000e01aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rbx + 224]
-	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
-	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
-	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
-	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
-	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_292
-	JMP  LBB1_675
-
-LBB1_293:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_682
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_295:
-	LONG $0x0cd4fdc5; BYTE $0xda               // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx]
-	LONG $0x54d4fdc5; WORD $0x20da             // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 32]
-	LONG $0x5cd4fdc5; WORD $0x40da             // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 64]
-	LONG $0x64d4fdc5; WORD $0x60da             // vpaddq    ymm4, ymm0, yword [rdx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
-	QUAD $0x000080da8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx + 128]
-	QUAD $0x0000a0da94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 160]
-	QUAD $0x0000c0da9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 192]
-	QUAD $0x0000e0daa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rbx + 224]
-	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
-	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
-	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
-	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_295
-	JMP  LBB1_683
-
-LBB1_296:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_690
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_298:
-	LONG $0x0cfdfdc5; BYTE $0x5a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx]
-	LONG $0x54fdfdc5; WORD $0x205a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x405a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx + 64]
-	LONG $0x54fdfdc5; WORD $0x605a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_298
-	JMP  LBB1_691
+LBB1_417:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_299:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_698
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_301:
-	LONG $0x0cfdfdc5; BYTE $0x5a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx]
-	LONG $0x54fdfdc5; WORD $0x205a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x405a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx + 64]
-	LONG $0x54fdfdc5; WORD $0x605a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_301
-	JMP  LBB1_699
+LBB1_418:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_420
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
 
-LBB1_302:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_706
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_304:
-	LONG $0x0cd4fdc5; BYTE $0xda               // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx]
-	LONG $0x54d4fdc5; WORD $0x20da             // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 32]
-	LONG $0x5cd4fdc5; WORD $0x40da             // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 64]
-	LONG $0x64d4fdc5; WORD $0x60da             // vpaddq    ymm4, ymm0, yword [rdx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
-	QUAD $0x000080da8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx + 128]
-	QUAD $0x0000a0da94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 160]
-	QUAD $0x0000c0da9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 192]
-	QUAD $0x0000e0daa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rbx + 224]
-	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
-	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
-	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
-	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_304
-	JMP  LBB1_707
+LBB1_420:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_421
 
-LBB1_305:
-	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
-	LONG $0x05eac149             // shr    r10, 5
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_714
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_307:
-	LONG $0x1458f4c5; BYTE $0x9a               // vaddps    ymm2, ymm1, yword [rdx + 4*rbx]
-	LONG $0x5c58f4c5; WORD $0x209a             // vaddps    ymm3, ymm1, yword [rdx + 4*rbx + 32]
-	LONG $0x6458f4c5; WORD $0x409a             // vaddps    ymm4, ymm1, yword [rdx + 4*rbx + 64]
-	LONG $0x6c58f4c5; WORD $0x609a             // vaddps    ymm5, ymm1, yword [rdx + 4*rbx + 96]
-	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
-	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
-	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
-	LONG $0x117cc1c4; WORD $0x986c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm5
-	QUAD $0x0000809a9458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rdx + 4*rbx + 128]
-	QUAD $0x0000a09a9c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rdx + 4*rbx + 160]
-	QUAD $0x0000c09aa458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rdx + 4*rbx + 192]
-	QUAD $0x0000e09aac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rdx + 4*rbx + 224]
-	QUAD $0x00809894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 128], ymm2
-	QUAD $0x00a0989c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 160], ymm3
-	QUAD $0x00c098a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 192], ymm4
-	QUAD $0x00e098ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 224], ymm5
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_307
-	JMP  LBB1_715
+LBB1_425:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_308:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80468d48             // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x07ebc149             // shr    r11, 7
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_722
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_310:
-	LONG $0x0cfcfdc5; BYTE $0x1a               // vpaddb    ymm1, ymm0, yword [rdx + rbx]
-	LONG $0x54fcfdc5; WORD $0x201a             // vpaddb    ymm2, ymm0, yword [rdx + rbx + 32]
-	LONG $0x5cfcfdc5; WORD $0x401a             // vpaddb    ymm3, ymm0, yword [rdx + rbx + 64]
-	LONG $0x64fcfdc5; WORD $0x601a             // vpaddb    ymm4, ymm0, yword [rdx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
-	QUAD $0x0000801a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rbx + 128]
-	QUAD $0x0000a01a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rbx + 160]
-	QUAD $0x0000c01a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rbx + 192]
-	QUAD $0x0000e01aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rbx + 224]
-	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
-	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
-	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
-	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
-	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_310
-	JMP  LBB1_723
+LBB1_426:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_428
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
 
-LBB1_311:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_730
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_313:
-	LONG $0x0cfefdc5; BYTE $0x9a               // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx]
-	LONG $0x54fefdc5; WORD $0x209a             // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 32]
-	LONG $0x5cfefdc5; WORD $0x409a             // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 64]
-	LONG $0x64fefdc5; WORD $0x609a             // vpaddd    ymm4, ymm0, yword [rdx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
-	QUAD $0x0000809a8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx + 128]
-	QUAD $0x0000a09a94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 160]
-	QUAD $0x0000c09a9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 192]
-	QUAD $0x0000e09aa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rbx + 224]
-	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
-	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
-	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
-	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_313
-	JMP  LBB1_731
+LBB1_428:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_429
 
-LBB1_314:
+LBB1_433:
 	WORD $0xff31 // xor    edi, edi
 
-LBB1_315:
+LBB1_434:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_317
+	JE   LBB1_436
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+
+LBB1_436:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_437
+
+LBB1_441:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_442:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_444
 	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
 	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
 	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
@@ -6517,17 +7583,81 @@ LBB1_315:
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
 
-LBB1_317:
+LBB1_444:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_517
-	JMP  LBB1_318
+	JE   LBB1_737
+	JMP  LBB1_445
+
+LBB1_449:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_322:
+LBB1_450:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_452
+	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
+	LONG $0x4c58f5c5; WORD $0x60fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
+
+LBB1_452:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_737
+	JMP  LBB1_453
+
+LBB1_457:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_323:
-	WORD $0xc3f6; BYTE $0x01                   // test    bl, 1
-	JE   LBB1_325
+LBB1_458:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_460
+	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
+	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
+	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
+	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xc95cd5c5                           // vsubpd    ymm1, ymm5, ymm1
+	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
+	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
+
+LBB1_460:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_737
+	JMP  LBB1_461
+
+LBB1_465:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_466:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_468
+	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
+	LONG $0x4c58f5c5; WORD $0x60fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
+
+LBB1_468:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_737
+	JMP  LBB1_469
+
+LBB1_473:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_474:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_476
 	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
 	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
 	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
@@ -6541,17 +7671,81 @@ LBB1_323:
 	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
 	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
 
-LBB1_325:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_517
-	JMP  LBB1_326
+LBB1_476:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_737
+	JMP  LBB1_477
+
+LBB1_481:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_482:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_484
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB1_484:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_485
+
+LBB1_489:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_490:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_492
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+
+LBB1_492:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_493
+
+LBB1_497:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_498:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_500
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
 
-LBB1_330:
+LBB1_500:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_501
+
+LBB1_505:
 	WORD $0xff31 // xor    edi, edi
 
-LBB1_331:
+LBB1_506:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_333
+	JE   LBB1_508
 	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
 	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
 	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
@@ -6565,17 +7759,37 @@ LBB1_331:
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
 
-LBB1_333:
+LBB1_508:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_517
-	JMP  LBB1_334
+	JE   LBB1_737
+	JMP  LBB1_509
 
-LBB1_338:
+LBB1_513:
 	WORD $0xff31 // xor    edi, edi
 
-LBB1_339:
+LBB1_514:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_516
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB1_516:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_517
+
+LBB1_521:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_522:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_341
+	JE   LBB1_524
 	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
 	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
 	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
@@ -6589,53 +7803,37 @@ LBB1_339:
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
 
-LBB1_341:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_517
-	JMP  LBB1_342
-
-LBB1_346:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_347:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_349
-	LONG $0x0c6ffec5; BYTE $0x5a               // vmovdqu    ymm1, yword [rdx + 2*rbx]
-	LONG $0x546ffec5; WORD $0x205a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
-
-LBB1_349:
+LBB1_524:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_517
-	JMP  LBB1_350
+	JE   LBB1_737
+	JMP  LBB1_525
 
-LBB1_354:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB1_529:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_355:
+LBB1_530:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_357
-	LONG $0x0c6ffec5; BYTE $0x5a               // vmovdqu    ymm1, yword [rdx + 2*rbx]
-	LONG $0x546ffec5; WORD $0x205a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+	JE   LBB1_532
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
 
-LBB1_357:
+LBB1_532:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_517
-	JMP  LBB1_358
+	JE   LBB1_737
+	JMP  LBB1_533
 
-LBB1_362:
+LBB1_537:
 	WORD $0xff31 // xor    edi, edi
 
-LBB1_363:
+LBB1_538:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_365
+	JE   LBB1_540
 	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
 	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
 	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
@@ -6649,2373 +7847,1852 @@ LBB1_363:
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
 
-LBB1_365:
+LBB1_540:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_517
-	JMP  LBB1_366
+	JE   LBB1_737
+	JMP  LBB1_541
 
-LBB1_370:
-	WORD $0xf631 // xor    esi, esi
+LBB1_545:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_371:
-	WORD $0xc3f6; BYTE $0x01                   // test    bl, 1
-	JE   LBB1_373
-	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
-	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
-	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
-	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xc95cd4c5                           // vsubps    ymm1, ymm5, ymm1
-	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
-	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
+LBB1_546:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_548
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
-LBB1_373:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_517
-	JMP  LBB1_374
+LBB1_548:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_549
 
-LBB1_378:
+LBB1_553:
 	WORD $0xff31 // xor    edi, edi
 
-LBB1_379:
+LBB1_554:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_381
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
+	JE   LBB1_556
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
-LBB1_381:
+LBB1_556:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_517
-	JMP  LBB1_382
+	JE   LBB1_737
+	JMP  LBB1_557
 
-LBB1_386:
+LBB1_561:
 	WORD $0xff31 // xor    edi, edi
 
-LBB1_387:
+LBB1_562:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_389
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
-	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
+	JE   LBB1_564
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
-LBB1_389:
+LBB1_564:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_517
-	JMP  LBB1_390
-
-LBB1_394:
-	WORD $0xdb31 // xor    ebx, ebx
+	JE   LBB1_737
+	JMP  LBB1_565
 
-LBB1_395:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_397
-	LONG $0x0cfefdc5; BYTE $0x9a               // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx]
-	LONG $0x54fefdc5; WORD $0x209a             // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 32]
-	LONG $0x5cfefdc5; WORD $0x409a             // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 64]
-	LONG $0x44fefdc5; WORD $0x609a             // vpaddd    ymm0, ymm0, yword [rdx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
-
-LBB1_397:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_474
-	JMP  LBB1_398
+LBB1_569:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_402:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_403:
-	LONG $0x01c2f641                           // test    r10b, 1
-	JE   LBB1_405
-	LONG $0x1458f5c5; BYTE $0xda               // vaddpd    ymm2, ymm1, yword [rdx + 8*rbx]
-	LONG $0x5c58f5c5; WORD $0x20da             // vaddpd    ymm3, ymm1, yword [rdx + 8*rbx + 32]
-	LONG $0x6458f5c5; WORD $0x40da             // vaddpd    ymm4, ymm1, yword [rdx + 8*rbx + 64]
-	LONG $0x4c58f5c5; WORD $0x60da             // vaddpd    ymm1, ymm1, yword [rdx + 8*rbx + 96]
-	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
-	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xd84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm1
+LBB1_570:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_572
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
-LBB1_405:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB1_474
-	JMP  LBB1_406
+LBB1_572:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_573
 
-LBB1_410:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB1_577:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_411:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_413
-	LONG $0x0cfcfdc5; BYTE $0x1a               // vpaddb    ymm1, ymm0, yword [rdx + rbx]
-	LONG $0x54fcfdc5; WORD $0x201a             // vpaddb    ymm2, ymm0, yword [rdx + rbx + 32]
-	LONG $0x5cfcfdc5; WORD $0x401a             // vpaddb    ymm3, ymm0, yword [rdx + rbx + 64]
-	LONG $0x44fcfdc5; WORD $0x601a             // vpaddb    ymm0, ymm0, yword [rdx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+LBB1_578:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_580
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
-LBB1_413:
+LBB1_580:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_474
-	JMP  LBB1_414
+	JE   LBB1_737
+	JMP  LBB1_581
 
-LBB1_418:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_419:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_421
-	LONG $0x0cd4fdc5; BYTE $0xda               // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx]
-	LONG $0x54d4fdc5; WORD $0x20da             // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 32]
-	LONG $0x5cd4fdc5; WORD $0x40da             // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 64]
-	LONG $0x44d4fdc5; WORD $0x60da             // vpaddq    ymm0, ymm0, yword [rdx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+LBB1_585:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_421:
+LBB1_586:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_588
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB1_588:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_474
-	JMP  LBB1_422
+	JE   LBB1_737
+	JMP  LBB1_589
 
-LBB1_426:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB1_593:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_427:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_429
-	LONG $0x0cfdfdc5; BYTE $0x5a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx]
-	LONG $0x44fdfdc5; WORD $0x205a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+LBB1_594:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_596
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
-LBB1_429:
+LBB1_596:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_474
-	JMP  LBB1_430
+	JE   LBB1_737
+	JMP  LBB1_597
 
-LBB1_434:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB1_601:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_435:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_437
-	LONG $0x0cfdfdc5; BYTE $0x5a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx]
-	LONG $0x44fdfdc5; WORD $0x205a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+LBB1_602:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_604
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
-LBB1_437:
+LBB1_604:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_474
-	JMP  LBB1_438
+	JE   LBB1_737
+	JMP  LBB1_605
 
-LBB1_442:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_443:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_445
-	LONG $0x0cd4fdc5; BYTE $0xda               // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx]
-	LONG $0x54d4fdc5; WORD $0x20da             // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 32]
-	LONG $0x5cd4fdc5; WORD $0x40da             // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 64]
-	LONG $0x44d4fdc5; WORD $0x60da             // vpaddq    ymm0, ymm0, yword [rdx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+LBB1_609:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_445:
+LBB1_610:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_612
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB1_612:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_474
-	JMP  LBB1_446
+	JE   LBB1_737
+	JMP  LBB1_613
 
-LBB1_450:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_451:
-	LONG $0x01c2f641                           // test    r10b, 1
-	JE   LBB1_453
-	LONG $0x1458f4c5; BYTE $0x9a               // vaddps    ymm2, ymm1, yword [rdx + 4*rbx]
-	LONG $0x5c58f4c5; WORD $0x209a             // vaddps    ymm3, ymm1, yword [rdx + 4*rbx + 32]
-	LONG $0x6458f4c5; WORD $0x409a             // vaddps    ymm4, ymm1, yword [rdx + 4*rbx + 64]
-	LONG $0x4c58f4c5; WORD $0x609a             // vaddps    ymm1, ymm1, yword [rdx + 4*rbx + 96]
-	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
-	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
-	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
-	LONG $0x117cc1c4; WORD $0x984c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm1
+LBB1_617:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_453:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB1_474
-	JMP  LBB1_454
+LBB1_618:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_620
+	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
+	LONG $0x4c58f4c5; WORD $0x60ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
 
-LBB1_458:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_459:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_461
-	LONG $0x0cfcfdc5; BYTE $0x1a               // vpaddb    ymm1, ymm0, yword [rdx + rbx]
-	LONG $0x54fcfdc5; WORD $0x201a             // vpaddb    ymm2, ymm0, yword [rdx + rbx + 32]
-	LONG $0x5cfcfdc5; WORD $0x401a             // vpaddb    ymm3, ymm0, yword [rdx + rbx + 64]
-	LONG $0x44fcfdc5; WORD $0x601a             // vpaddb    ymm0, ymm0, yword [rdx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+LBB1_620:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_737
+	JMP  LBB1_621
 
-LBB1_461:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_474
-	JMP  LBB1_462
+LBB1_625:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_466:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_467:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_469
-	LONG $0x0cfefdc5; BYTE $0x9a               // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx]
-	LONG $0x54fefdc5; WORD $0x209a             // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 32]
-	LONG $0x5cfefdc5; WORD $0x409a             // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 64]
-	LONG $0x44fefdc5; WORD $0x609a             // vpaddd    ymm0, ymm0, yword [rdx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+LBB1_626:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_628
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
 
-LBB1_469:
+LBB1_628:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB1_470
-
-LBB1_474:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_482
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_489
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_499
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_502
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_13
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b44; BYTE $0x19 // mov    r11d, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_481
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_548
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_548
+	JE   LBB1_737
+	JMP  LBB1_629
 
-LBB1_481:
+LBB1_633:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_582:
-	WORD $0x8949; BYTE $0xf6 // mov    r14, rsi
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_584
-
-LBB1_583:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x2944; BYTE $0xd8 // sub    eax, r11d
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_583
+LBB1_634:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_636
+	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
+	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
+	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
+	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xc95cd4c5                           // vsubps    ymm1, ymm5, ymm1
+	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
+	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
 
-LBB1_584:
-	LONG $0x03fe8349 // cmp    r14, 3
-	JB   LBB1_13
+LBB1_636:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_737
+	JMP  LBB1_637
 
-LBB1_585:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x2944; BYTE $0xd8     // sub    eax, r11d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0x2944; BYTE $0xd8     // sub    eax, r11d
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	WORD $0x2944; BYTE $0xd8     // sub    eax, r11d
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	WORD $0x2944; BYTE $0xd8     // sub    eax, r11d
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_585
-	JMP  LBB1_13
+LBB1_641:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_482:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_494
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_505
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_508
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_13
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x0110fbc5         // vmovsd    xmm0, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_488
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_551
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_551
+LBB1_642:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_644
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
 
-LBB1_488:
-	WORD $0xf631 // xor    esi, esi
+LBB1_644:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_645
 
-LBB1_590:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_592
+LBB1_649:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_591:
-	LONG $0x0c10fbc5; BYTE $0xf2   // vmovsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc85cf3c5               // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xf00c // vmovsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB1_591
+LBB1_650:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_652
+	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
+	LONG $0x4c58f4c5; WORD $0x60ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
 
-LBB1_592:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB1_13
+LBB1_652:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_737
+	JMP  LBB1_653
 
-LBB1_593:
-	LONG $0x0c10fbc5; BYTE $0xf2               // vmovsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xf00c             // vmovsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x4c10fbc5; WORD $0x08f2             // vmovsd    xmm1, qword [rdx + 8*rsi + 8]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x4c10fbc5; WORD $0x10f2             // vmovsd    xmm1, qword [rdx + 8*rsi + 16]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x4c10fbc5; WORD $0x18f2             // vmovsd    xmm1, qword [rdx + 8*rsi + 24]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB1_593
-	JMP  LBB1_13
+LBB1_657:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_489:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB1_511
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB1_13
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8a44; BYTE $0x19                   // mov    r11b, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_493
-	LONG $0x12048d4a                           // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
-	JBE  LBB1_554
-	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB1_554
+LBB1_658:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_660
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
 
-LBB1_493:
+LBB1_660:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_661
+
+LBB1_665:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_598:
-	WORD $0x8949; BYTE $0xf6 // mov    r14, rsi
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_600
+LBB1_666:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_668
+	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
+	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
+	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
+	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xc95cd4c5                           // vsubps    ymm1, ymm5, ymm1
+	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
+	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
 
-LBB1_599:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x2844; BYTE $0xd8 // sub    al, r11b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_599
+LBB1_668:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_737
+	JMP  LBB1_669
 
-LBB1_600:
-	LONG $0x03fe8349 // cmp    r14, 3
-	JB   LBB1_13
+LBB1_673:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_601:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x2844; BYTE $0xd8     // sub    al, r11b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	WORD $0x2844; BYTE $0xd8     // sub    al, r11b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	WORD $0x2844; BYTE $0xd8     // sub    al, r11b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0x2844; BYTE $0xd8     // sub    al, r11b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_601
-	JMP  LBB1_13
+LBB1_674:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_676
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
 
-LBB1_494:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_514
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_13
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b4c; BYTE $0x19 // mov    r11, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_498
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_557
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_557
+LBB1_676:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_677
 
-LBB1_498:
-	WORD $0xf631 // xor    esi, esi
+LBB1_681:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_606:
-	WORD $0x8949; BYTE $0xf6 // mov    r14, rsi
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_608
+LBB1_682:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_684
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
 
-LBB1_607:
-	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x294c; BYTE $0xd8 // sub    rax, r11
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_607
+LBB1_684:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_685
 
-LBB1_608:
-	LONG $0x03fe8349 // cmp    r14, 3
-	JB   LBB1_13
+LBB1_689:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_609:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x294c; BYTE $0xd8     // sub    rax, r11
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x294c; BYTE $0xd8     // sub    rax, r11
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x294c; BYTE $0xd8     // sub    rax, r11
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x294c; BYTE $0xd8     // sub    rax, r11
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_609
-	JMP  LBB1_13
+LBB1_690:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_692
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
 
-LBB1_499:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x31b70f44         // movzx    r14d, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_501
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_560
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_560
+LBB1_692:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_693
 
-LBB1_501:
-	WORD $0xf631 // xor    esi, esi
+LBB1_697:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_614:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB1_616
+LBB1_698:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_700
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
 
-LBB1_615:
-	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
-	WORD $0x2944; BYTE $0xf3     // sub    ebx, r14d
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB1_615
+LBB1_700:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_701
 
-LBB1_616:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_13
+LBB1_705:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_617:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_617
-	JMP  LBB1_13
+LBB1_706:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_708
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
 
-LBB1_502:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x31b70f44         // movzx    r14d, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_504
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_563
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_563
+LBB1_708:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_709
 
-LBB1_504:
-	WORD $0xf631 // xor    esi, esi
+LBB1_713:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_622:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB1_624
+LBB1_714:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_716
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
 
-LBB1_623:
-	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
-	WORD $0x2944; BYTE $0xf3     // sub    ebx, r14d
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB1_623
+LBB1_716:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_717
 
-LBB1_624:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_13
+LBB1_721:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_625:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_625
-	JMP  LBB1_13
+LBB1_722:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_724
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
 
-LBB1_505:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b4c; BYTE $0x19 // mov    r11, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_507
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_566
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_566
+LBB1_724:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_725
 
-LBB1_507:
-	WORD $0xf631 // xor    esi, esi
+LBB1_729:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_630:
-	WORD $0x8949; BYTE $0xf6 // mov    r14, rsi
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_632
+LBB1_730:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_732
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
 
-LBB1_631:
-	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x294c; BYTE $0xd8 // sub    rax, r11
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_631
+LBB1_732:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB1_733
 
-LBB1_632:
-	LONG $0x03fe8349 // cmp    r14, 3
-	JB   LBB1_13
+LBB1_737:
+	VZEROUPPER
+	RET
 
-LBB1_633:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x294c; BYTE $0xd8     // sub    rax, r11
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x294c; BYTE $0xd8     // sub    rax, r11
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x294c; BYTE $0xd8     // sub    rax, r11
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x294c; BYTE $0xd8     // sub    rax, r11
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_633
-	JMP  LBB1_13
+TEXT ·_arithmetic_scalar_arr_avx2(SB), $0-48
 
-LBB1_508:
+	MOVQ typ+0(FP), DI
+	MOVQ op+8(FP), SI
+	MOVQ inLeft+16(FP), DX
+	MOVQ inRight+24(FP), CX
+	MOVQ out+32(FP), R8
+	MOVQ len+40(FP), R9
+
+	LONG $0x01fe8040         // cmp    sil, 1
+	JG   LBB2_11
+	WORD $0x8440; BYTE $0xf6 // test    sil, sil
+	JE   LBB2_21
+	LONG $0x01fe8040         // cmp    sil, 1
+	JNE  LBB2_737
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_37
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_65
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_105
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_108
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x0110fac5         // vmovss    xmm0, dword [rcx]
+	JLE  LBB2_737
+	WORD $0x028b             // mov    eax, dword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_510
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_569
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_569
-
-LBB1_510:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_638:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_640
-
-LBB1_639:
-	LONG $0x0c10fac5; BYTE $0xb2   // vmovss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc85cf2c5               // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0xb00c // vmovss    dword [r8 + 4*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB1_639
-
-LBB1_640:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB1_13
-
-LBB1_641:
-	LONG $0x0c10fac5; BYTE $0xb2               // vmovss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0xb00c             // vmovss    dword [r8 + 4*rsi], xmm1
-	LONG $0x4c10fac5; WORD $0x04b2             // vmovss    xmm1, dword [rdx + 4*rsi + 4]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm1
-	LONG $0x4c10fac5; WORD $0x08b2             // vmovss    xmm1, dword [rdx + 4*rsi + 8]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm1
-	LONG $0x4c10fac5; WORD $0x0cb2             // vmovss    xmm1, dword [rdx + 4*rsi + 12]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB1_641
-	JMP  LBB1_13
-
-LBB1_511:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8a44; BYTE $0x19                   // mov    r11b, byte [rcx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB1_513
-	LONG $0x12048d4a                           // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
-	JBE  LBB1_572
-	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JBE  LBB1_572
+	JB   LBB2_10
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_297
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_297
 
-LBB1_513:
+LBB2_10:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_646:
-	WORD $0x8949; BYTE $0xf6 // mov    r14, rsi
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_648
+LBB2_421:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_423
 
-LBB1_647:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x2844; BYTE $0xd8 // sub    al, r11b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
+LBB2_422:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_647
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_422
 
-LBB1_648:
-	LONG $0x03fe8349 // cmp    r14, 3
-	JB   LBB1_13
+LBB2_423:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB1_649:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x2844; BYTE $0xd8     // sub    al, r11b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	WORD $0x2844; BYTE $0xd8     // sub    al, r11b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	WORD $0x2844; BYTE $0xd8     // sub    al, r11b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0x2844; BYTE $0xd8     // sub    al, r11b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+LBB2_424:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_649
-	JMP  LBB1_13
+	JNE  LBB2_424
+	JMP  LBB2_737
 
-LBB1_514:
+LBB2_11:
+	LONG $0x02fe8040         // cmp    sil, 2
+	JE   LBB2_29
+	LONG $0x03fe8040         // cmp    sil, 3
+	JNE  LBB2_737
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_44
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_70
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_111
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_114
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b44; BYTE $0x19 // mov    r11d, dword [rcx]
+	JLE  LBB2_737
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_516
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_575
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_575
+	JB   LBB2_20
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_300
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_300
 
-LBB1_516:
+LBB2_20:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_654:
-	WORD $0x8949; BYTE $0xf6 // mov    r14, rsi
-	WORD $0xf749; BYTE $0xd6 // not    r14
-	WORD $0x014d; BYTE $0xd6 // add    r14, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_656
+LBB2_429:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_431
 
-LBB1_655:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x2944; BYTE $0xd8 // sub    eax, r11d
+LBB2_430:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
 	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_655
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_430
 
-LBB1_656:
-	LONG $0x03fe8349 // cmp    r14, 3
-	JB   LBB1_13
+LBB2_431:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
-LBB1_657:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x2944; BYTE $0xd8     // sub    eax, r11d
+LBB2_432:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
 	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0x2944; BYTE $0xd8     // sub    eax, r11d
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
 	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	WORD $0x2944; BYTE $0xd8     // sub    eax, r11d
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
 	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	WORD $0x2944; BYTE $0xd8     // sub    eax, r11d
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
 	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_657
-	JMP  LBB1_13
-
-LBB1_517:
-	VZEROUPPER
-	RET
-
-LBB1_548:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc6     // mov    r14, rax
-	LONG $0x05eec149             // shr    r14, 5
-	LONG $0x01c68349             // add    r14, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_578
-	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
-	LONG $0xfee38348             // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb     // neg    rbx
-	WORD $0xc031                 // xor    eax, eax
-
-LBB1_550:
-	LONG $0x0c6ffec5; BYTE $0x82               // vmovdqu    ymm1, yword [rdx + 4*rax]
-	LONG $0x546ffec5; WORD $0x2082             // vmovdqu    ymm2, yword [rdx + 4*rax + 32]
-	LONG $0x5c6ffec5; WORD $0x4082             // vmovdqu    ymm3, yword [rdx + 4*rax + 64]
-	LONG $0x646ffec5; WORD $0x6082             // vmovdqu    ymm4, yword [rdx + 4*rax + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x800c             // vmovdqu    yword [r8 + 4*rax], ymm1
-	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x8064; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm4
-	QUAD $0x000080828c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rax + 128]
-	QUAD $0x0000a082946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rax + 160]
-	QUAD $0x0000c0829c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rax + 192]
-	QUAD $0x0000e082a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rax + 224]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	QUAD $0x0080808c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rax + 128], ymm1
-	QUAD $0x00a080947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rax + 160], ymm2
-	QUAD $0x00c0809c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rax + 192], ymm3
-	QUAD $0x00e080a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rax + 224], ymm4
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB1_550
-	JMP  LBB1_579
+	JNE  LBB2_432
+	JMP  LBB2_737
 
-LBB1_551:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_586
-	WORD $0x894c; BYTE $0xdb     // mov    rbx, r11
-	LONG $0xfee38348             // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb     // neg    rbx
-	WORD $0xc031                 // xor    eax, eax
+LBB2_21:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_51
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_75
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_117
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_120
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_28
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_303
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_303
 
-LBB1_553:
-	LONG $0x1410fdc5; BYTE $0xc2               // vmovupd    ymm2, yword [rdx + 8*rax]
-	LONG $0x5c10fdc5; WORD $0x20c2             // vmovupd    ymm3, yword [rdx + 8*rax + 32]
-	LONG $0x6410fdc5; WORD $0x40c2             // vmovupd    ymm4, yword [rdx + 8*rax + 64]
-	LONG $0x6c10fdc5; WORD $0x60c2             // vmovupd    ymm5, yword [rdx + 8*rax + 96]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
-	LONG $0x117dc1c4; WORD $0xc014             // vmovupd    yword [r8 + 8*rax], ymm2
-	LONG $0x117dc1c4; WORD $0xc05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rax + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xc064; BYTE $0x40 // vmovupd    yword [r8 + 8*rax + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xc06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rax + 96], ymm5
-	QUAD $0x000080c29410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + 8*rax + 128]
-	QUAD $0x0000a0c29c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + 8*rax + 160]
-	QUAD $0x0000c0c2a410fdc5; BYTE $0x00       // vmovupd    ymm4, yword [rdx + 8*rax + 192]
-	QUAD $0x0000e0c2ac10fdc5; BYTE $0x00       // vmovupd    ymm5, yword [rdx + 8*rax + 224]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
-	QUAD $0x0080c094117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rax + 128], ymm2
-	QUAD $0x00a0c09c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rax + 160], ymm3
-	QUAD $0x00c0c0a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rax + 192], ymm4
-	QUAD $0x00e0c0ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rax + 224], ymm5
-	LONG $0x20c08348                           // add    rax, 32
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB1_553
-	JMP  LBB1_587
+LBB2_28:
+	WORD $0xf631 // xor    esi, esi
 
-LBB1_554:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80468d48             // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc6     // mov    r14, rax
-	LONG $0x07eec149             // shr    r14, 7
-	LONG $0x01c68349             // add    r14, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_594
-	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
-	LONG $0xfee38348             // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb     // neg    rbx
-	WORD $0xc031                 // xor    eax, eax
+LBB2_437:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_439
 
-LBB1_556:
-	LONG $0x0c6ffec5; BYTE $0x02               // vmovdqu    ymm1, yword [rdx + rax]
-	LONG $0x546ffec5; WORD $0x2002             // vmovdqu    ymm2, yword [rdx + rax + 32]
-	LONG $0x5c6ffec5; WORD $0x4002             // vmovdqu    ymm3, yword [rdx + rax + 64]
-	LONG $0x646ffec5; WORD $0x6002             // vmovdqu    ymm4, yword [rdx + rax + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x000c             // vmovdqu    yword [r8 + rax], ymm1
-	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x0064; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm4
-	QUAD $0x000080028c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rax + 128]
-	QUAD $0x0000a002946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rax + 160]
-	QUAD $0x0000c0029c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rax + 192]
-	QUAD $0x0000e002a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rax + 224]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	QUAD $0x0080008c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rax + 128], ymm1
-	QUAD $0x00a000947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rax + 160], ymm2
-	QUAD $0x00c0009c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rax + 192], ymm3
-	QUAD $0x00e000a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rax + 224], ymm4
-	LONG $0x01000548; WORD $0x0000             // add    rax, 256
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB1_556
-	JMP  LBB1_595
+LBB2_438:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_438
 
-LBB1_557:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc6     // mov    r14, rax
-	LONG $0x04eec149             // shr    r14, 4
-	LONG $0x01c68349             // add    r14, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_602
-	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
-	LONG $0xfee38348             // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb     // neg    rbx
-	WORD $0xc031                 // xor    eax, eax
+LBB2_439:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB1_559:
-	LONG $0x0c6ffec5; BYTE $0xc2               // vmovdqu    ymm1, yword [rdx + 8*rax]
-	LONG $0x546ffec5; WORD $0x20c2             // vmovdqu    ymm2, yword [rdx + 8*rax + 32]
-	LONG $0x5c6ffec5; WORD $0x40c2             // vmovdqu    ymm3, yword [rdx + 8*rax + 64]
-	LONG $0x646ffec5; WORD $0x60c2             // vmovdqu    ymm4, yword [rdx + 8*rax + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc00c             // vmovdqu    yword [r8 + 8*rax], ymm1
-	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xc064; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm4
-	QUAD $0x000080c28c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rax + 128]
-	QUAD $0x0000a0c2946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rax + 160]
-	QUAD $0x0000c0c29c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rax + 192]
-	QUAD $0x0000e0c2a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rax + 224]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	QUAD $0x0080c08c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rax + 128], ymm1
-	QUAD $0x00a0c0947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rax + 160], ymm2
-	QUAD $0x00c0c09c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rax + 192], ymm3
-	QUAD $0x00e0c0a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rax + 224], ymm4
-	LONG $0x20c08348                           // add    rax, 32
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB1_559
-	JMP  LBB1_603
+LBB2_440:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_440
+	JMP  LBB2_737
 
-LBB1_560:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_610
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB2_29:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_58
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_80
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_123
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_126
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_36
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_306
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_306
 
-LBB1_562:
-	LONG $0x0c6ffec5; BYTE $0x5a               // vmovdqu    ymm1, yword [rdx + 2*rbx]
-	LONG $0x546ffec5; WORD $0x205a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
-	LONG $0x4c6ffec5; WORD $0x405a             // vmovdqu    ymm1, yword [rdx + 2*rbx + 64]
-	LONG $0x546ffec5; WORD $0x605a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 96]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_562
-	JMP  LBB1_611
-
-LBB1_563:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_618
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB2_36:
+	WORD $0xf631 // xor    esi, esi
 
-LBB1_565:
-	LONG $0x0c6ffec5; BYTE $0x5a               // vmovdqu    ymm1, yword [rdx + 2*rbx]
-	LONG $0x546ffec5; WORD $0x205a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
-	LONG $0x4c6ffec5; WORD $0x405a             // vmovdqu    ymm1, yword [rdx + 2*rbx + 64]
-	LONG $0x546ffec5; WORD $0x605a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 96]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_565
-	JMP  LBB1_619
+LBB2_445:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_447
 
-LBB1_566:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc6     // mov    r14, rax
-	LONG $0x04eec149             // shr    r14, 4
-	LONG $0x01c68349             // add    r14, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_626
-	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
-	LONG $0xfee38348             // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb     // neg    rbx
-	WORD $0xc031                 // xor    eax, eax
+LBB2_446:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_446
 
-LBB1_568:
-	LONG $0x0c6ffec5; BYTE $0xc2               // vmovdqu    ymm1, yword [rdx + 8*rax]
-	LONG $0x546ffec5; WORD $0x20c2             // vmovdqu    ymm2, yword [rdx + 8*rax + 32]
-	LONG $0x5c6ffec5; WORD $0x40c2             // vmovdqu    ymm3, yword [rdx + 8*rax + 64]
-	LONG $0x646ffec5; WORD $0x60c2             // vmovdqu    ymm4, yword [rdx + 8*rax + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc00c             // vmovdqu    yword [r8 + 8*rax], ymm1
-	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xc064; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm4
-	QUAD $0x000080c28c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rax + 128]
-	QUAD $0x0000a0c2946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rax + 160]
-	QUAD $0x0000c0c29c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rax + 192]
-	QUAD $0x0000e0c2a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rax + 224]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
-	QUAD $0x0080c08c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rax + 128], ymm1
-	QUAD $0x00a0c0947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rax + 160], ymm2
-	QUAD $0x00c0c09c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rax + 192], ymm3
-	QUAD $0x00e0c0a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rax + 224], ymm4
-	LONG $0x20c08348                           // add    rax, 32
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB1_568
-	JMP  LBB1_627
+LBB2_447:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
-LBB1_569:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_634
-	WORD $0x894c; BYTE $0xdb     // mov    rbx, r11
-	LONG $0xfee38348             // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb     // neg    rbx
-	WORD $0xc031                 // xor    eax, eax
-
-LBB1_571:
-	LONG $0x1410fcc5; BYTE $0x82               // vmovups    ymm2, yword [rdx + 4*rax]
-	LONG $0x5c10fcc5; WORD $0x2082             // vmovups    ymm3, yword [rdx + 4*rax + 32]
-	LONG $0x6410fcc5; WORD $0x4082             // vmovups    ymm4, yword [rdx + 4*rax + 64]
-	LONG $0x6c10fcc5; WORD $0x6082             // vmovups    ymm5, yword [rdx + 4*rax + 96]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
-	LONG $0x117cc1c4; WORD $0x8014             // vmovups    yword [r8 + 4*rax], ymm2
-	LONG $0x117cc1c4; WORD $0x805c; BYTE $0x20 // vmovups    yword [r8 + 4*rax + 32], ymm3
-	LONG $0x117cc1c4; WORD $0x8064; BYTE $0x40 // vmovups    yword [r8 + 4*rax + 64], ymm4
-	LONG $0x117cc1c4; WORD $0x806c; BYTE $0x60 // vmovups    yword [r8 + 4*rax + 96], ymm5
-	QUAD $0x000080829410fcc5; BYTE $0x00       // vmovups    ymm2, yword [rdx + 4*rax + 128]
-	QUAD $0x0000a0829c10fcc5; BYTE $0x00       // vmovups    ymm3, yword [rdx + 4*rax + 160]
-	QUAD $0x0000c082a410fcc5; BYTE $0x00       // vmovups    ymm4, yword [rdx + 4*rax + 192]
-	QUAD $0x0000e082ac10fcc5; BYTE $0x00       // vmovups    ymm5, yword [rdx + 4*rax + 224]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
-	QUAD $0x00808094117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rax + 128], ymm2
-	QUAD $0x00a0809c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rax + 160], ymm3
-	QUAD $0x00c080a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rax + 192], ymm4
-	QUAD $0x00e080ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rax + 224], ymm5
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB1_571
-	JMP  LBB1_635
+LBB2_448:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_448
+	JMP  LBB2_737
 
-LBB1_572:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80468d48             // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc6     // mov    r14, rax
-	LONG $0x07eec149             // shr    r14, 7
-	LONG $0x01c68349             // add    r14, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_642
-	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
-	LONG $0xfee38348             // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb     // neg    rbx
-	WORD $0xc031                 // xor    eax, eax
+LBB2_37:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_85
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_129
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_132
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_43
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_309
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_309
 
-LBB1_574:
-	LONG $0x0c6ffec5; BYTE $0x02               // vmovdqu    ymm1, yword [rdx + rax]
-	LONG $0x546ffec5; WORD $0x2002             // vmovdqu    ymm2, yword [rdx + rax + 32]
-	LONG $0x5c6ffec5; WORD $0x4002             // vmovdqu    ymm3, yword [rdx + rax + 64]
-	LONG $0x646ffec5; WORD $0x6002             // vmovdqu    ymm4, yword [rdx + rax + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x000c             // vmovdqu    yword [r8 + rax], ymm1
-	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x0064; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm4
-	QUAD $0x000080028c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rax + 128]
-	QUAD $0x0000a002946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rax + 160]
-	QUAD $0x0000c0029c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rax + 192]
-	QUAD $0x0000e002a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rax + 224]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
-	QUAD $0x0080008c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rax + 128], ymm1
-	QUAD $0x00a000947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rax + 160], ymm2
-	QUAD $0x00c0009c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rax + 192], ymm3
-	QUAD $0x00e000a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rax + 224], ymm4
-	LONG $0x01000548; WORD $0x0000             // add    rax, 256
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB1_574
-	JMP  LBB1_643
+LBB2_43:
+	WORD $0xd231 // xor    edx, edx
 
-LBB1_575:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc6     // mov    r14, rax
-	LONG $0x05eec149             // shr    r14, 5
-	LONG $0x01c68349             // add    r14, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_650
-	WORD $0x894c; BYTE $0xf3     // mov    rbx, r14
-	LONG $0xfee38348             // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb     // neg    rbx
-	WORD $0xc031                 // xor    eax, eax
+LBB2_453:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_455
 
-LBB1_577:
-	LONG $0x0c6ffec5; BYTE $0x82               // vmovdqu    ymm1, yword [rdx + 4*rax]
-	LONG $0x546ffec5; WORD $0x2082             // vmovdqu    ymm2, yword [rdx + 4*rax + 32]
-	LONG $0x5c6ffec5; WORD $0x4082             // vmovdqu    ymm3, yword [rdx + 4*rax + 64]
-	LONG $0x646ffec5; WORD $0x6082             // vmovdqu    ymm4, yword [rdx + 4*rax + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x800c             // vmovdqu    yword [r8 + 4*rax], ymm1
-	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x8064; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm4
-	QUAD $0x000080828c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rax + 128]
-	QUAD $0x0000a082946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rax + 160]
-	QUAD $0x0000c0829c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rax + 192]
-	QUAD $0x0000e082a46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rax + 224]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
-	QUAD $0x0080808c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rax + 128], ymm1
-	QUAD $0x00a080947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rax + 160], ymm2
-	QUAD $0x00c0809c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rax + 192], ymm3
-	QUAD $0x00e080a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rax + 224], ymm4
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB1_577
-	JMP  LBB1_651
+LBB2_454:
+	LONG $0x0c58fbc5; BYTE $0xd1   // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_454
 
-LBB1_578:
-	WORD $0xc031 // xor    eax, eax
-
-LBB1_579:
-	LONG $0x01c6f641                           // test    r14b, 1
-	JE   LBB1_581
-	LONG $0x0c6ffec5; BYTE $0x82               // vmovdqu    ymm1, yword [rdx + 4*rax]
-	LONG $0x546ffec5; WORD $0x2082             // vmovdqu    ymm2, yword [rdx + 4*rax + 32]
-	LONG $0x5c6ffec5; WORD $0x4082             // vmovdqu    ymm3, yword [rdx + 4*rax + 64]
-	LONG $0x646ffec5; WORD $0x6082             // vmovdqu    ymm4, yword [rdx + 4*rax + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x800c             // vmovdqu    yword [r8 + 4*rax], ymm1
-	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x8044; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm0
+LBB2_455:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_737
 
-LBB1_581:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_582
+LBB2_456:
+	LONG $0x0c58fbc5; BYTE $0xd1               // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x4c58fbc5; WORD $0x08d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x4c58fbc5; WORD $0x10d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x4c58fbc5; WORD $0x18d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_456
+	JMP  LBB2_737
 
-LBB1_586:
-	WORD $0xc031 // xor    eax, eax
-
-LBB1_587:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_589
-	LONG $0x1410fdc5; BYTE $0xc2               // vmovupd    ymm2, yword [rdx + 8*rax]
-	LONG $0x5c10fdc5; WORD $0x20c2             // vmovupd    ymm3, yword [rdx + 8*rax + 32]
-	LONG $0x6410fdc5; WORD $0x40c2             // vmovupd    ymm4, yword [rdx + 8*rax + 64]
-	LONG $0x6c10fdc5; WORD $0x60c2             // vmovupd    ymm5, yword [rdx + 8*rax + 96]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xc95cd5c5                           // vsubpd    ymm1, ymm5, ymm1
-	LONG $0x117dc1c4; WORD $0xc014             // vmovupd    yword [r8 + 8*rax], ymm2
-	LONG $0x117dc1c4; WORD $0xc05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rax + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xc064; BYTE $0x40 // vmovupd    yword [r8 + 8*rax + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xc04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rax + 96], ymm1
+LBB2_44:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_90
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_135
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_138
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_50
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_312
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_312
 
-LBB1_589:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_590
+LBB2_50:
+	WORD $0xd231 // xor    edx, edx
 
-LBB1_594:
-	WORD $0xc031 // xor    eax, eax
-
-LBB1_595:
-	LONG $0x01c6f641                           // test    r14b, 1
-	JE   LBB1_597
-	LONG $0x0c6ffec5; BYTE $0x02               // vmovdqu    ymm1, yword [rdx + rax]
-	LONG $0x546ffec5; WORD $0x2002             // vmovdqu    ymm2, yword [rdx + rax + 32]
-	LONG $0x5c6ffec5; WORD $0x4002             // vmovdqu    ymm3, yword [rdx + rax + 64]
-	LONG $0x646ffec5; WORD $0x6002             // vmovdqu    ymm4, yword [rdx + rax + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x000c             // vmovdqu    yword [r8 + rax], ymm1
-	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x0044; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm0
+LBB2_461:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_463
 
-LBB1_597:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_598
+LBB2_462:
+	LONG $0x0c5cfbc5; BYTE $0xd1   // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_462
 
-LBB1_602:
-	WORD $0xc031 // xor    eax, eax
-
-LBB1_603:
-	LONG $0x01c6f641                           // test    r14b, 1
-	JE   LBB1_605
-	LONG $0x0c6ffec5; BYTE $0xc2               // vmovdqu    ymm1, yword [rdx + 8*rax]
-	LONG $0x546ffec5; WORD $0x20c2             // vmovdqu    ymm2, yword [rdx + 8*rax + 32]
-	LONG $0x5c6ffec5; WORD $0x40c2             // vmovdqu    ymm3, yword [rdx + 8*rax + 64]
-	LONG $0x646ffec5; WORD $0x60c2             // vmovdqu    ymm4, yword [rdx + 8*rax + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc00c             // vmovdqu    yword [r8 + 8*rax], ymm1
-	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xc044; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm0
+LBB2_463:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_737
 
-LBB1_605:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_606
+LBB2_464:
+	LONG $0x0c5cfbc5; BYTE $0xd1               // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x4c5cfbc5; WORD $0x08d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x4c5cfbc5; WORD $0x10d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x4c5cfbc5; WORD $0x18d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_464
+	JMP  LBB2_737
 
-LBB1_610:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_51:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_95
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_141
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_144
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_57
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_315
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_315
 
-LBB1_611:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_613
-	LONG $0x0c6ffec5; BYTE $0x5a               // vmovdqu    ymm1, yword [rdx + 2*rbx]
-	LONG $0x546ffec5; WORD $0x205a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+LBB2_57:
+	WORD $0xd231 // xor    edx, edx
 
-LBB1_613:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_614
+LBB2_469:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_471
 
-LBB1_618:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_470:
+	LONG $0x0c58fbc5; BYTE $0xd1   // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_470
 
-LBB1_619:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_621
-	LONG $0x0c6ffec5; BYTE $0x5a               // vmovdqu    ymm1, yword [rdx + 2*rbx]
-	LONG $0x546ffec5; WORD $0x205a             // vmovdqu    ymm2, yword [rdx + 2*rbx + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+LBB2_471:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_737
 
-LBB1_621:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_622
+LBB2_472:
+	LONG $0x0c58fbc5; BYTE $0xd1               // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x4c58fbc5; WORD $0x08d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x4c58fbc5; WORD $0x10d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x4c58fbc5; WORD $0x18d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_472
+	JMP  LBB2_737
+
+LBB2_58:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_100
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_147
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_150
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_64
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_318
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_318
 
-LBB1_626:
-	WORD $0xc031 // xor    eax, eax
-
-LBB1_627:
-	LONG $0x01c6f641                           // test    r14b, 1
-	JE   LBB1_629
-	LONG $0x0c6ffec5; BYTE $0xc2               // vmovdqu    ymm1, yword [rdx + 8*rax]
-	LONG $0x546ffec5; WORD $0x20c2             // vmovdqu    ymm2, yword [rdx + 8*rax + 32]
-	LONG $0x5c6ffec5; WORD $0x40c2             // vmovdqu    ymm3, yword [rdx + 8*rax + 64]
-	LONG $0x646ffec5; WORD $0x60c2             // vmovdqu    ymm4, yword [rdx + 8*rax + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0xc00c             // vmovdqu    yword [r8 + 8*rax], ymm1
-	LONG $0x7f7ec1c4; WORD $0xc054; BYTE $0x20 // vmovdqu    yword [r8 + 8*rax + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xc05c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rax + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xc044; BYTE $0x60 // vmovdqu    yword [r8 + 8*rax + 96], ymm0
+LBB2_64:
+	WORD $0xd231 // xor    edx, edx
 
-LBB1_629:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_630
+LBB2_477:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_479
 
-LBB1_634:
-	WORD $0xc031 // xor    eax, eax
-
-LBB1_635:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_637
-	LONG $0x1410fcc5; BYTE $0x82               // vmovups    ymm2, yword [rdx + 4*rax]
-	LONG $0x5c10fcc5; WORD $0x2082             // vmovups    ymm3, yword [rdx + 4*rax + 32]
-	LONG $0x6410fcc5; WORD $0x4082             // vmovups    ymm4, yword [rdx + 4*rax + 64]
-	LONG $0x6c10fcc5; WORD $0x6082             // vmovups    ymm5, yword [rdx + 4*rax + 96]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xc95cd4c5                           // vsubps    ymm1, ymm5, ymm1
-	LONG $0x117cc1c4; WORD $0x8014             // vmovups    yword [r8 + 4*rax], ymm2
-	LONG $0x117cc1c4; WORD $0x805c; BYTE $0x20 // vmovups    yword [r8 + 4*rax + 32], ymm3
-	LONG $0x117cc1c4; WORD $0x8064; BYTE $0x40 // vmovups    yword [r8 + 4*rax + 64], ymm4
-	LONG $0x117cc1c4; WORD $0x804c; BYTE $0x60 // vmovups    yword [r8 + 4*rax + 96], ymm1
+LBB2_478:
+	LONG $0x0c5cfbc5; BYTE $0xd1   // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_478
 
-LBB1_637:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_638
+LBB2_479:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_737
 
-LBB1_642:
-	WORD $0xc031 // xor    eax, eax
-
-LBB1_643:
-	LONG $0x01c6f641                           // test    r14b, 1
-	JE   LBB1_645
-	LONG $0x0c6ffec5; BYTE $0x02               // vmovdqu    ymm1, yword [rdx + rax]
-	LONG $0x546ffec5; WORD $0x2002             // vmovdqu    ymm2, yword [rdx + rax + 32]
-	LONG $0x5c6ffec5; WORD $0x4002             // vmovdqu    ymm3, yword [rdx + rax + 64]
-	LONG $0x646ffec5; WORD $0x6002             // vmovdqu    ymm4, yword [rdx + rax + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x000c             // vmovdqu    yword [r8 + rax], ymm1
-	LONG $0x7f7ec1c4; WORD $0x0054; BYTE $0x20 // vmovdqu    yword [r8 + rax + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x005c; BYTE $0x40 // vmovdqu    yword [r8 + rax + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x0044; BYTE $0x60 // vmovdqu    yword [r8 + rax + 96], ymm0
+LBB2_480:
+	LONG $0x0c5cfbc5; BYTE $0xd1               // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x4c5cfbc5; WORD $0x08d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x4c5cfbc5; WORD $0x10d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x4c5cfbc5; WORD $0x18d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
+	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_480
+	JMP  LBB2_737
 
-LBB1_645:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_646
+LBB2_65:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB2_153
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x028a                               // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_69
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_321
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_321
 
-LBB1_650:
-	WORD $0xc031 // xor    eax, eax
-
-LBB1_651:
-	LONG $0x01c6f641                           // test    r14b, 1
-	JE   LBB1_653
-	LONG $0x0c6ffec5; BYTE $0x82               // vmovdqu    ymm1, yword [rdx + 4*rax]
-	LONG $0x546ffec5; WORD $0x2082             // vmovdqu    ymm2, yword [rdx + 4*rax + 32]
-	LONG $0x5c6ffec5; WORD $0x4082             // vmovdqu    ymm3, yword [rdx + 4*rax + 64]
-	LONG $0x646ffec5; WORD $0x6082             // vmovdqu    ymm4, yword [rdx + 4*rax + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
-	LONG $0x7f7ec1c4; WORD $0x800c             // vmovdqu    yword [r8 + 4*rax], ymm1
-	LONG $0x7f7ec1c4; WORD $0x8054; BYTE $0x20 // vmovdqu    yword [r8 + 4*rax + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x805c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rax + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x8044; BYTE $0x60 // vmovdqu    yword [r8 + 4*rax + 96], ymm0
+LBB2_69:
+	WORD $0xf631 // xor    esi, esi
 
-LBB1_653:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_654
+LBB2_485:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_487
 
-LBB1_658:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_659:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_661
-	LONG $0x0cfefdc5; BYTE $0x9a               // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx]
-	LONG $0x54fefdc5; WORD $0x209a             // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 32]
-	LONG $0x5cfefdc5; WORD $0x409a             // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 64]
-	LONG $0x44fefdc5; WORD $0x609a             // vpaddd    ymm0, ymm0, yword [rdx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+LBB2_486:
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_486
 
-LBB1_661:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_3
-	JMP  LBB1_662
+LBB2_487:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB1_666:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_667:
-	LONG $0x01c2f641                           // test    r10b, 1
-	JE   LBB1_669
-	LONG $0x1458f5c5; BYTE $0xda               // vaddpd    ymm2, ymm1, yword [rdx + 8*rbx]
-	LONG $0x5c58f5c5; WORD $0x20da             // vaddpd    ymm3, ymm1, yword [rdx + 8*rbx + 32]
-	LONG $0x6458f5c5; WORD $0x40da             // vaddpd    ymm4, ymm1, yword [rdx + 8*rbx + 64]
-	LONG $0x4c58f5c5; WORD $0x60da             // vaddpd    ymm1, ymm1, yword [rdx + 8*rbx + 96]
-	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
-	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xd84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm1
+LBB2_488:
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_488
+	JMP  LBB2_737
 
-LBB1_669:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB1_3
-	JMP  LBB1_670
+LBB2_70:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB2_156
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x028a                               // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_74
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_324
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_324
 
-LBB1_674:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_675:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_677
-	LONG $0x0cfcfdc5; BYTE $0x1a               // vpaddb    ymm1, ymm0, yword [rdx + rbx]
-	LONG $0x54fcfdc5; WORD $0x201a             // vpaddb    ymm2, ymm0, yword [rdx + rbx + 32]
-	LONG $0x5cfcfdc5; WORD $0x401a             // vpaddb    ymm3, ymm0, yword [rdx + rbx + 64]
-	LONG $0x44fcfdc5; WORD $0x601a             // vpaddb    ymm0, ymm0, yword [rdx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+LBB2_74:
+	WORD $0xf631 // xor    esi, esi
 
-LBB1_677:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_3
-	JMP  LBB1_678
+LBB2_493:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_495
 
-LBB1_682:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_683:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_685
-	LONG $0x0cd4fdc5; BYTE $0xda               // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx]
-	LONG $0x54d4fdc5; WORD $0x20da             // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 32]
-	LONG $0x5cd4fdc5; WORD $0x40da             // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 64]
-	LONG $0x44d4fdc5; WORD $0x60da             // vpaddq    ymm0, ymm0, yword [rdx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+LBB2_494:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841         // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_494
 
-LBB1_685:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_3
-	JMP  LBB1_686
+LBB2_495:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB1_690:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_496:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_496
+	JMP  LBB2_737
 
-LBB1_691:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_693
-	LONG $0x0cfdfdc5; BYTE $0x5a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx]
-	LONG $0x44fdfdc5; WORD $0x205a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+LBB2_75:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB2_159
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x028a                               // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_79
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_327
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_327
 
-LBB1_693:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_3
-	JMP  LBB1_694
+LBB2_79:
+	WORD $0xf631 // xor    esi, esi
 
-LBB1_698:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_501:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_503
 
-LBB1_699:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_701
-	LONG $0x0cfdfdc5; BYTE $0x5a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rbx]
-	LONG $0x44fdfdc5; WORD $0x205a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+LBB2_502:
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_502
 
-LBB1_701:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_3
-	JMP  LBB1_702
+LBB2_503:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB1_706:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_707:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_709
-	LONG $0x0cd4fdc5; BYTE $0xda               // vpaddq    ymm1, ymm0, yword [rdx + 8*rbx]
-	LONG $0x54d4fdc5; WORD $0x20da             // vpaddq    ymm2, ymm0, yword [rdx + 8*rbx + 32]
-	LONG $0x5cd4fdc5; WORD $0x40da             // vpaddq    ymm3, ymm0, yword [rdx + 8*rbx + 64]
-	LONG $0x44d4fdc5; WORD $0x60da             // vpaddq    ymm0, ymm0, yword [rdx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+LBB2_504:
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_504
+	JMP  LBB2_737
 
-LBB1_709:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_3
-	JMP  LBB1_710
+LBB2_80:
+	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
+	JE   LBB2_162
+	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x028a                               // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_84
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_330
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_330
 
-LBB1_714:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_715:
-	LONG $0x01c2f641                           // test    r10b, 1
-	JE   LBB1_717
-	LONG $0x1458f4c5; BYTE $0x9a               // vaddps    ymm2, ymm1, yword [rdx + 4*rbx]
-	LONG $0x5c58f4c5; WORD $0x209a             // vaddps    ymm3, ymm1, yword [rdx + 4*rbx + 32]
-	LONG $0x6458f4c5; WORD $0x409a             // vaddps    ymm4, ymm1, yword [rdx + 4*rbx + 64]
-	LONG $0x4c58f4c5; WORD $0x609a             // vaddps    ymm1, ymm1, yword [rdx + 4*rbx + 96]
-	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
-	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
-	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
-	LONG $0x117cc1c4; WORD $0x984c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm1
+LBB2_84:
+	WORD $0xf631 // xor    esi, esi
 
-LBB1_717:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB1_3
-	JMP  LBB1_718
+LBB2_509:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_511
 
-LBB1_722:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_723:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_725
-	LONG $0x0cfcfdc5; BYTE $0x1a               // vpaddb    ymm1, ymm0, yword [rdx + rbx]
-	LONG $0x54fcfdc5; WORD $0x201a             // vpaddb    ymm2, ymm0, yword [rdx + rbx + 32]
-	LONG $0x5cfcfdc5; WORD $0x401a             // vpaddb    ymm3, ymm0, yword [rdx + rbx + 64]
-	LONG $0x44fcfdc5; WORD $0x601a             // vpaddb    ymm0, ymm0, yword [rdx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+LBB2_510:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841         // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_510
 
-LBB1_725:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_3
-	JMP  LBB1_726
+LBB2_511:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB1_730:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_731:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_733
-	LONG $0x0cfefdc5; BYTE $0x9a               // vpaddd    ymm1, ymm0, yword [rdx + 4*rbx]
-	LONG $0x54fefdc5; WORD $0x209a             // vpaddd    ymm2, ymm0, yword [rdx + 4*rbx + 32]
-	LONG $0x5cfefdc5; WORD $0x409a             // vpaddd    ymm3, ymm0, yword [rdx + 4*rbx + 64]
-	LONG $0x44fefdc5; WORD $0x609a             // vpaddd    ymm0, ymm0, yword [rdx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+LBB2_512:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_512
+	JMP  LBB2_737
 
-LBB1_733:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_3
-	JMP  LBB1_734
+LBB2_85:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_165
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_89
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_333
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_333
 
-TEXT ·_arithmetic_scalar_arr_avx2(SB), $0-48
+LBB2_89:
+	WORD $0xf631 // xor    esi, esi
 
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ inLeft+16(FP), DX
-	MOVQ inRight+24(FP), CX
-	MOVQ out+32(FP), R8
-	MOVQ len+40(FP), R9
+LBB2_517:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_519
 
-	LONG $0x01fe8040         // cmp    sil, 1
-	JG   LBB2_11
-	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB2_28
-	LONG $0x01fe8040         // cmp    sil, 1
-	JNE  LBB2_517
+LBB2_518:
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_518
+
+LBB2_519:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
+
+LBB2_520:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_520
+	JMP  LBB2_737
 
-LBB2_3:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_36
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_60
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_98
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_101
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_474
+LBB2_90:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_168
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	JLE  LBB2_737
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_10
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_254
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_254
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_94
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_336
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_336
 
-LBB2_10:
+LBB2_94:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_398:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_400
+LBB2_525:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_527
 
-LBB2_399:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+LBB2_526:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_399
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_526
 
-LBB2_400:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_474
+LBB2_527:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
-LBB2_401:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+LBB2_528:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_401
-	JMP  LBB2_474
-
-LBB2_11:
-	LONG $0x02fe8040 // cmp    sil, 2
-	JE   LBB2_474
-	LONG $0x03fe8040 // cmp    sil, 3
-	JNE  LBB2_517
+	JNE  LBB2_528
+	JMP  LBB2_737
 
-LBB2_13:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_21
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_50
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_70
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_73
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_517
+LBB2_95:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_171
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	JLE  LBB2_737
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_20
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_99
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_194
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	JBE  LBB2_339
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_194
+	JBE  LBB2_339
 
-LBB2_20:
+LBB2_99:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_318:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_320
+LBB2_533:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_535
 
-LBB2_319:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+LBB2_534:
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc28348         // add    rdx, -1
-	JNE  LBB2_319
-
-LBB2_320:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB2_517
-
-LBB2_321:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_534
+
+LBB2_535:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
+
+LBB2_536:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_321
-	JMP  LBB2_517
+	JNE  LBB2_536
+	JMP  LBB2_737
 
-LBB2_21:
+LBB2_100:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_174
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_55
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_76
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_79
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_517
+	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	JLE  LBB2_737
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_27
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	JB   LBB2_104
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_197
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	JBE  LBB2_342
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_197
+	JBE  LBB2_342
 
-LBB2_27:
-	WORD $0xd231 // xor    edx, edx
+LBB2_104:
+	WORD $0xf631 // xor    esi, esi
 
-LBB2_326:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+LBB2_541:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_328
+	JE   LBB2_543
 
-LBB2_327:
-	LONG $0x0c5cfbc5; BYTE $0xd1   // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_327
+LBB2_542:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_542
 
-LBB2_328:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_517
+LBB2_543:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
-LBB2_329:
-	LONG $0x0c5cfbc5; BYTE $0xd1               // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
-	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c5cfbc5; WORD $0x08d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c5cfbc5; WORD $0x10d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c5cfbc5; WORD $0x18d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
-	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_329
-	JMP  LBB2_517
+LBB2_544:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_544
+	JMP  LBB2_737
 
-LBB2_28:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_43
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_88
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_116
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_119
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_3
+LBB2_105:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	JLE  LBB2_737
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_35
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_284
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_284
+	JB   LBB2_107
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_345
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_345
 
-LBB2_35:
+LBB2_107:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_662:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_664
+LBB2_549:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_551
 
-LBB2_663:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_663
+LBB2_550:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_550
 
-LBB2_664:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_3
+LBB2_551:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_665:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_665
-	JMP  LBB2_3
+LBB2_552:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_552
+	JMP  LBB2_737
 
-LBB2_36:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_65
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_104
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_107
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_474
+LBB2_108:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_42
-	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_257
-	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_257
+	JLE  LBB2_737
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_110
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_348
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_348
 
-LBB2_42:
+LBB2_110:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_406:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_408
+LBB2_557:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_559
 
-LBB2_407:
-	LONG $0x0c58fbc5; BYTE $0xf1   // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf00c // vmovsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB2_407
+LBB2_558:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_558
 
-LBB2_408:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB2_474
-
-LBB2_409:
-	LONG $0x0c58fbc5; BYTE $0xf1               // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf00c             // vmovsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x4c58fbc5; WORD $0x08f1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x4c58fbc5; WORD $0x10f1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x4c58fbc5; WORD $0x18f1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB2_409
-	JMP  LBB2_474
+LBB2_559:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_43:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_93
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_122
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_125
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_3
+LBB2_560:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_560
+	JMP  LBB2_737
+
+LBB2_111:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_49
-	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_287
-	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_287
+	JLE  LBB2_737
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_113
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_351
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_351
 
-LBB2_49:
+LBB2_113:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_670:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_672
+LBB2_565:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_567
 
-LBB2_671:
-	LONG $0x0c58fbc5; BYTE $0xf1   // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf00c // vmovsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB2_671
+LBB2_566:
+	WORD $0xc789                 // mov    edi, eax
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_566
 
-LBB2_672:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB2_3
+LBB2_567:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_673:
-	LONG $0x0c58fbc5; BYTE $0xf1               // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf00c             // vmovsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x4c58fbc5; WORD $0x08f1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x4c58fbc5; WORD $0x10f1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x4c58fbc5; WORD $0x18f1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB2_673
-	JMP  LBB2_3
+LBB2_568:
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_568
+	JMP  LBB2_737
 
-LBB2_50:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB2_82
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB2_517
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_54
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_200
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_200
+LBB2_114:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_116
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_354
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_354
 
-LBB2_54:
+LBB2_116:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_334:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+LBB2_573:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
 	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_336
+	JE   LBB2_575
 
-LBB2_335:
-	WORD $0xc389             // mov    ebx, eax
-	WORD $0x1c2a; BYTE $0x31 // sub    bl, byte [rcx + rsi]
-	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc28348         // add    rdx, -1
-	JNE  LBB2_335
+LBB2_574:
+	WORD $0xc789                 // mov    edi, eax
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_574
 
-LBB2_336:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB2_517
+LBB2_575:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_337:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_337
-	JMP  LBB2_517
+LBB2_576:
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_576
+	JMP  LBB2_737
 
-LBB2_55:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_85
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_517
+LBB2_117:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	JLE  LBB2_737
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_59
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_119
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_203
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	JBE  LBB2_357
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_203
+	JBE  LBB2_357
 
-LBB2_59:
+LBB2_119:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_342:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+LBB2_581:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
 	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_344
-
-LBB2_343:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc28348         // add    rdx, -1
-	JNE  LBB2_343
-
-LBB2_344:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB2_517
-
-LBB2_345:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_345
-	JMP  LBB2_517
-
-LBB2_60:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB2_110
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB2_474
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8a44; BYTE $0x32                   // mov    r14b, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_64
-	LONG $0x11048d4a                           // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
-	JBE  LBB2_260
-	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB2_260
+	JE   LBB2_583
 
-LBB2_64:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_414:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_416
-
-LBB2_415:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0044; BYTE $0xf0 // add    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_415
+LBB2_582:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_582
 
-LBB2_416:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_474
+LBB2_583:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_417:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_417
-	JMP  LBB2_474
+LBB2_584:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_584
+	JMP  LBB2_737
 
-LBB2_65:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_113
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_474
+LBB2_120:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	JLE  LBB2_737
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_69
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_263
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_263
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_122
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_360
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_360
 
-LBB2_69:
+LBB2_122:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_422:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_424
+LBB2_589:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
+	LONG $0x03e28348         // and    rdx, 3
+	JE   LBB2_591
 
-LBB2_423:
-	LONG $0xf1048b48         // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0 // add    rax, r14
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_423
+LBB2_590:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_590
 
-LBB2_424:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_474
+LBB2_591:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_425:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_425
-	JMP  LBB2_474
+LBB2_592:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_592
+	JMP  LBB2_737
 
-LBB2_70:
+LBB2_123:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
+	JLE  LBB2_737
 	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_72
+	JB   LBB2_125
 	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_206
+	JBE  LBB2_363
 	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_206
+	JBE  LBB2_363
 
-LBB2_72:
+LBB2_125:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_350:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+LBB2_597:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
 	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_352
+	JE   LBB2_599
 
-LBB2_351:
-	WORD $0xc389                 // mov    ebx, eax
-	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+LBB2_598:
+	WORD $0xc789                 // mov    edi, eax
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_351
+	JNE  LBB2_598
 
-LBB2_352:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB2_517
+LBB2_599:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_353:
+LBB2_600:
 	WORD $0xc289                   // mov    edx, eax
 	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
 	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
@@ -9030,102 +9707,207 @@ LBB2_353:
 	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_353
-	JMP  LBB2_517
+	JNE  LBB2_600
+	JMP  LBB2_737
 
-LBB2_73:
+LBB2_126:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
+	JLE  LBB2_737
 	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_75
+	JB   LBB2_128
 	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_209
+	JBE  LBB2_366
 	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_209
+	JBE  LBB2_366
 
-LBB2_75:
+LBB2_128:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_358:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
+LBB2_605:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
 	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_360
+	JE   LBB2_607
+
+LBB2_606:
+	WORD $0xc789                 // mov    edi, eax
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc28348             // add    rdx, -1
+	JNE  LBB2_606
+
+LBB2_607:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
+
+LBB2_608:
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_608
+	JMP  LBB2_737
+
+LBB2_129:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_131
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_369
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_369
+
+LBB2_131:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_613:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_615
+
+LBB2_614:
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_614
+
+LBB2_615:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
+
+LBB2_616:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_616
+	JMP  LBB2_737
+
+LBB2_132:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_134
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_372
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_372
+
+LBB2_134:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_621:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_623
 
-LBB2_359:
-	WORD $0xc389                 // mov    ebx, eax
-	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_359
+LBB2_622:
+	LONG $0x0c58fac5; BYTE $0x91   // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_622
 
-LBB2_360:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB2_517
+LBB2_623:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_737
 
-LBB2_361:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
-	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
-	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
-	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
-	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_361
-	JMP  LBB2_517
+LBB2_624:
+	LONG $0x0c58fac5; BYTE $0x91               // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c58fac5; WORD $0x0491             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x4c58fac5; WORD $0x0891             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x4c58fac5; WORD $0x0c91             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_624
+	JMP  LBB2_737
 
-LBB2_76:
+LBB2_135:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
+	JLE  LBB2_737
 	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_78
+	JB   LBB2_137
 	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_212
+	JBE  LBB2_375
 	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_212
+	JBE  LBB2_375
 
-LBB2_78:
+LBB2_137:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_366:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_368
+LBB2_629:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_631
 
-LBB2_367:
+LBB2_630:
 	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
 	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
 	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc28348         // add    rdx, -1
-	JNE  LBB2_367
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_630
 
-LBB2_368:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB2_517
+LBB2_631:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
-LBB2_369:
+LBB2_632:
 	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
 	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
 	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
@@ -9140,46 +9922,46 @@ LBB2_369:
 	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_369
-	JMP  LBB2_517
+	JNE  LBB2_632
+	JMP  LBB2_737
 
-LBB2_79:
+LBB2_138:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
+	JLE  LBB2_737
 	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
 	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_81
+	JB   LBB2_140
 	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_215
+	JBE  LBB2_378
 	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_215
+	JBE  LBB2_378
 
-LBB2_81:
+LBB2_140:
 	WORD $0xd231 // xor    edx, edx
 
-LBB2_374:
+LBB2_637:
 	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
 	WORD $0xf748; BYTE $0xd6 // not    rsi
 	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
 	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_376
+	JE   LBB2_639
 
-LBB2_375:
+LBB2_638:
 	LONG $0x0c5cfac5; BYTE $0x91   // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
 	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
 	LONG $0x01c28348               // add    rdx, 1
 	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_375
+	JNE  LBB2_638
 
-LBB2_376:
+LBB2_639:
 	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_517
+	JB   LBB2_737
 
-LBB2_377:
+LBB2_640:
 	LONG $0x0c5cfac5; BYTE $0x91               // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
 	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
 	LONG $0x4c5cfac5; WORD $0x0491             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
@@ -9190,941 +9972,938 @@ LBB2_377:
 	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
 	LONG $0x04c28348                           // add    rdx, 4
 	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_377
-	JMP  LBB2_517
+	JNE  LBB2_640
+	JMP  LBB2_737
 
-LBB2_82:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x028a                               // mov    al, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_84
-	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
-	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
-	JBE  LBB2_218
-	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
-	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
-	JBE  LBB2_218
-
-LBB2_84:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_382:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_384
-
-LBB2_383:
-	WORD $0xc389             // mov    ebx, eax
-	WORD $0x1c2a; BYTE $0x31 // sub    bl, byte [rcx + rsi]
-	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc28348         // add    rdx, -1
-	JNE  LBB2_383
-
-LBB2_384:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB2_517
-
-LBB2_385:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_385
-	JMP  LBB2_517
-
-LBB2_85:
+LBB2_141:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	JLE  LBB2_737
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_87
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_143
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_221
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	JBE  LBB2_381
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_221
-
-LBB2_87:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_390:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_392
-
-LBB2_391:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc28348         // add    rdx, -1
-	JNE  LBB2_391
+	JBE  LBB2_381
 
-LBB2_392:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB2_517
-
-LBB2_393:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_393
-	JMP  LBB2_517
-
-LBB2_88:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB2_128
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB2_3
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8a44; BYTE $0x32                   // mov    r14b, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_92
-	LONG $0x11048d4a                           // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
-	JBE  LBB2_290
-	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB2_290
-
-LBB2_92:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_678:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_680
-
-LBB2_679:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0044; BYTE $0xf0 // add    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_679
-
-LBB2_680:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_3
-
-LBB2_681:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_681
-	JMP  LBB2_3
-
-LBB2_93:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_131
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_3
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_97
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_293
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_293
-
-LBB2_97:
+LBB2_143:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_686:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_688
+LBB2_645:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_647
 
-LBB2_687:
-	LONG $0xf1048b48         // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0 // add    rax, r14
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+LBB2_646:
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_687
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_646
 
-LBB2_688:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_3
+LBB2_647:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_689:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+LBB2_648:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_689
-	JMP  LBB2_3
-
-LBB2_98:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x32b70f44         // movzx    r14d, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_100
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_266
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_266
-
-LBB2_100:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_430:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB2_432
-
-LBB2_431:
-	LONG $0x711cb70f             // movzx    ebx, word [rcx + 2*rsi]
-	LONG $0xf3014466             // add    bx, r14w
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB2_431
-
-LBB2_432:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_474
-
-LBB2_433:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_433
-	JMP  LBB2_474
+	JNE  LBB2_648
+	JMP  LBB2_737
 
-LBB2_101:
+LBB2_144:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x32b70f44         // movzx    r14d, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	JLE  LBB2_737
+	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_103
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_269
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_269
+	JB   LBB2_146
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_384
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_384
 
-LBB2_103:
-	WORD $0xf631 // xor    esi, esi
+LBB2_146:
+	WORD $0xd231 // xor    edx, edx
 
-LBB2_438:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB2_440
+LBB2_653:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_655
 
-LBB2_439:
-	LONG $0x711cb70f             // movzx    ebx, word [rcx + 2*rsi]
-	LONG $0xf3014466             // add    bx, r14w
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB2_439
+LBB2_654:
+	LONG $0x0c58fac5; BYTE $0x91   // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_654
 
-LBB2_440:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_474
+LBB2_655:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_737
 
-LBB2_441:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_441
-	JMP  LBB2_474
+LBB2_656:
+	LONG $0x0c58fac5; BYTE $0x91               // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c58fac5; WORD $0x0491             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x4c58fac5; WORD $0x0891             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x4c58fac5; WORD $0x0c91             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_656
+	JMP  LBB2_737
 
-LBB2_104:
+LBB2_147:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	JLE  LBB2_737
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_106
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_272
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_272
+	JB   LBB2_149
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_387
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_387
 
-LBB2_106:
+LBB2_149:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_446:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_448
+LBB2_661:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_663
 
-LBB2_447:
-	LONG $0xf1048b48         // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+LBB2_662:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
 	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_447
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_662
 
-LBB2_448:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_474
+LBB2_663:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
-LBB2_449:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+LBB2_664:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
 	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
 	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
 	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
 	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_449
-	JMP  LBB2_474
+	JNE  LBB2_664
+	JMP  LBB2_737
 
-LBB2_107:
+LBB2_150:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
+	JLE  LBB2_737
 	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_109
-	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_275
-	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_275
+	JB   LBB2_152
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_390
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_390
 
-LBB2_109:
-	WORD $0xf631 // xor    esi, esi
+LBB2_152:
+	WORD $0xd231 // xor    edx, edx
 
-LBB2_454:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_456
+LBB2_669:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_671
 
-LBB2_455:
-	LONG $0x0c58fac5; BYTE $0xb1   // vaddss    xmm1, xmm0, dword [rcx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb00c // vmovss    dword [r8 + 4*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB2_455
+LBB2_670:
+	LONG $0x0c5cfac5; BYTE $0x91   // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_670
 
-LBB2_456:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB2_474
+LBB2_671:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_737
 
-LBB2_457:
-	LONG $0x0c58fac5; BYTE $0xb1               // vaddss    xmm1, xmm0, dword [rcx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb00c             // vmovss    dword [r8 + 4*rsi], xmm1
-	LONG $0x4c58fac5; WORD $0x04b1             // vaddss    xmm1, xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm1
-	LONG $0x4c58fac5; WORD $0x08b1             // vaddss    xmm1, xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm1
-	LONG $0x4c58fac5; WORD $0x0cb1             // vaddss    xmm1, xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB2_457
-	JMP  LBB2_474
+LBB2_672:
+	LONG $0x0c5cfac5; BYTE $0x91               // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c5cfac5; WORD $0x0491             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x4c5cfac5; WORD $0x0891             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x4c5cfac5; WORD $0x0c91             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
+	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_672
+	JMP  LBB2_737
 
-LBB2_110:
+LBB2_153:
 	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8a44; BYTE $0x32                   // mov    r14b, byte [rdx]
+	JLE  LBB2_737
+	WORD $0x028a                               // mov    al, byte [rdx]
 	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
 	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_112
-	LONG $0x11048d4a                           // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
-	JBE  LBB2_278
-	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB2_278
+	JB   LBB2_155
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_393
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_393
 
-LBB2_112:
+LBB2_155:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_462:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_464
+LBB2_677:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_679
 
-LBB2_463:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0044; BYTE $0xf0 // add    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_463
+LBB2_678:
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_678
 
-LBB2_464:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_474
+LBB2_679:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_465:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+LBB2_680:
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_465
-	JMP  LBB2_474
+	JNE  LBB2_680
+	JMP  LBB2_737
 
-LBB2_113:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_115
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_281
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_281
+LBB2_156:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x028a                               // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_158
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_396
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_396
 
-LBB2_115:
+LBB2_158:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_470:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_472
+LBB2_685:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_687
 
-LBB2_471:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+LBB2_686:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841         // mov    byte [r8 + rsi], dl
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_471
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_686
 
-LBB2_472:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_474
+LBB2_687:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_473:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+LBB2_688:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_473
-	JMP  LBB2_474
+	JNE  LBB2_688
+	JMP  LBB2_737
 
-LBB2_116:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x32b70f44         // movzx    r14d, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_118
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_296
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_296
+LBB2_159:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x028a                               // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_161
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_399
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_399
 
-LBB2_118:
+LBB2_161:
 	WORD $0xf631 // xor    esi, esi
 
+LBB2_693:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_695
+
 LBB2_694:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB2_696
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_694
 
 LBB2_695:
-	LONG $0x711cb70f             // movzx    ebx, word [rcx + 2*rsi]
-	LONG $0xf3014466             // add    bx, r14w
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB2_695
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
 LBB2_696:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_3
-
-LBB2_697:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_697
-	JMP  LBB2_3
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_696
+	JMP  LBB2_737
 
-LBB2_119:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x32b70f44         // movzx    r14d, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_121
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_299
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_299
+LBB2_162:
+	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x028a                               // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
+	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
+	JB   LBB2_164
+	LONG $0x11148d4a                           // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2                   // cmp    rdx, r8
+	JBE  LBB2_402
+	LONG $0x10148d4b                           // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca                   // cmp    rdx, rcx
+	JBE  LBB2_402
 
-LBB2_121:
+LBB2_164:
 	WORD $0xf631 // xor    esi, esi
 
+LBB2_701:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_703
+
 LBB2_702:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB2_704
+	WORD $0xc289             // mov    edx, eax
+	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841         // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_702
 
 LBB2_703:
-	LONG $0x711cb70f             // movzx    ebx, word [rcx + 2*rsi]
-	LONG $0xf3014466             // add    bx, r14w
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB2_703
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
 LBB2_704:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_3
-
-LBB2_705:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_705
-	JMP  LBB2_3
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_704
+	JMP  LBB2_737
 
-LBB2_122:
+LBB2_165:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	JLE  LBB2_737
+	WORD $0x028b             // mov    eax, dword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_124
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_302
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_302
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_167
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_405
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_405
 
-LBB2_124:
+LBB2_167:
 	WORD $0xf631 // xor    esi, esi
 
+LBB2_709:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_711
+
 LBB2_710:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_712
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_710
 
 LBB2_711:
-	LONG $0xf1048b48         // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0 // add    rax, r14
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_711
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
 LBB2_712:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_3
-
-LBB2_713:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_713
-	JMP  LBB2_3
+	JNE  LBB2_712
+	JMP  LBB2_737
 
-LBB2_125:
+LBB2_168:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	JLE  LBB2_737
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_127
-	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_305
-	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_305
+	JB   LBB2_170
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_408
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_408
 
-LBB2_127:
+LBB2_170:
 	WORD $0xf631 // xor    esi, esi
 
+LBB2_717:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_719
+
 LBB2_718:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_720
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_718
 
 LBB2_719:
-	LONG $0x0c58fac5; BYTE $0xb1   // vaddss    xmm1, xmm0, dword [rcx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb00c // vmovss    dword [r8 + 4*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB2_719
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
 LBB2_720:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB2_3
-
-LBB2_721:
-	LONG $0x0c58fac5; BYTE $0xb1               // vaddss    xmm1, xmm0, dword [rcx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb00c             // vmovss    dword [r8 + 4*rsi], xmm1
-	LONG $0x4c58fac5; WORD $0x04b1             // vaddss    xmm1, xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm1
-	LONG $0x4c58fac5; WORD $0x08b1             // vaddss    xmm1, xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm1
-	LONG $0x4c58fac5; WORD $0x0cb1             // vaddss    xmm1, xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB2_721
-	JMP  LBB2_3
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_720
+	JMP  LBB2_737
 
-LBB2_128:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8a44; BYTE $0x32                   // mov    r14b, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_130
-	LONG $0x11048d4a                           // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
-	JBE  LBB2_308
-	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB2_308
+LBB2_171:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_173
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_411
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_411
 
-LBB2_130:
+LBB2_173:
 	WORD $0xf631 // xor    esi, esi
 
+LBB2_725:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_727
+
 LBB2_726:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_728
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_726
 
 LBB2_727:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0044; BYTE $0xf0 // add    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_727
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
 LBB2_728:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_3
-
-LBB2_729:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_729
-	JMP  LBB2_3
+	JNE  LBB2_728
+	JMP  LBB2_737
 
-LBB2_131:
+LBB2_174:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	JLE  LBB2_737
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_133
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_311
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_311
+	JB   LBB2_176
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_414
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_414
 
-LBB2_133:
+LBB2_176:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_734:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_736
+LBB2_733:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_735
 
-LBB2_735:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+LBB2_734:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
 	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_735
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_734
 
-LBB2_736:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_3
+LBB2_735:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
-LBB2_737:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+LBB2_736:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
 	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
 	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
 	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
 	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_737
-	JMP  LBB2_3
+	JNE  LBB2_736
+	JMP  LBB2_737
+
+LBB2_297:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_417
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_299:
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_299
+	JMP  LBB2_418
+
+LBB2_300:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_425
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_302:
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_302
+	JMP  LBB2_426
+
+LBB2_303:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_433
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_305:
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_305
+	JMP  LBB2_434
+
+LBB2_306:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_441
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_308:
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_308
+	JMP  LBB2_442
+
+LBB2_309:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0     // and    edx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_449
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_311:
+	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x6c58f5c5; WORD $0x60f9             // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080f99458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f99c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f9a458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9ac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_311
+	JMP  LBB2_450
+
+LBB2_312:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0     // and    edx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_457
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_314:
+	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x6c5cf5c5; WORD $0x60f9             // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080f9945cf5c5; BYTE $0x00       // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f99c5cf5c5; BYTE $0x00       // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f9a45cf5c5; BYTE $0x00       // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9ac5cf5c5; BYTE $0x00       // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_314
+	JMP  LBB2_458
 
-LBB2_194:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
+LBB2_315:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xf0     // and    edx, -16
+	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
+	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
 	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_314
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_196:
-	LONG $0x0cfafdc5; BYTE $0x99               // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx]
-	LONG $0x54fafdc5; WORD $0x2099             // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
-	LONG $0x5cfafdc5; WORD $0x4099             // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
-	LONG $0x64fafdc5; WORD $0x6099             // vpsubd    ymm4, ymm0, yword [rcx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
-	QUAD $0x000080998cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx + 128]
-	QUAD $0x0000a09994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 160]
-	QUAD $0x0000c0999cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 192]
-	QUAD $0x0000e099a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rbx + 224]
-	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
-	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
-	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
-	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB2_196
-	JMP  LBB2_315
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_465
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_317:
+	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x6c58f5c5; WORD $0x60f9             // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080f99458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f99c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f9a458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9ac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_317
+	JMP  LBB2_466
 
-LBB2_197:
+LBB2_318:
 	WORD $0xc289                 // mov    edx, eax
 	WORD $0xe283; BYTE $0xf0     // and    edx, -16
 	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
 	LONG $0xf0728d48             // lea    rsi, [rdx - 16]
-	WORD $0x8948; BYTE $0xf3     // mov    rbx, rsi
-	LONG $0x04ebc148             // shr    rbx, 4
-	LONG $0x01c38348             // add    rbx, 1
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_322
-	WORD $0x8948; BYTE $0xde     // mov    rsi, rbx
+	JE   LBB2_473
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
 	LONG $0xfee68348             // and    rsi, -2
 	WORD $0xf748; BYTE $0xde     // neg    rsi
 	WORD $0xff31                 // xor    edi, edi
 
-LBB2_199:
+LBB2_320:
 	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
 	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
 	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
@@ -10143,10 +10922,10 @@ LBB2_199:
 	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
 	LONG $0x20c78348                           // add    rdi, 32
 	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_199
-	JMP  LBB2_323
+	JNE  LBB2_320
+	JMP  LBB2_474
 
-LBB2_200:
+LBB2_321:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0x80     // and    esi, -128
 	LONG $0xc06ef9c5             // vmovd    xmm0, eax
@@ -10156,35 +10935,187 @@ LBB2_200:
 	LONG $0x07e9c149             // shr    r9, 7
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_330
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_202:
-	LONG $0x0cf8fdc5; BYTE $0x19               // vpsubb    ymm1, ymm0, yword [rcx + rbx]
-	LONG $0x54f8fdc5; WORD $0x2019             // vpsubb    ymm2, ymm0, yword [rcx + rbx + 32]
-	LONG $0x5cf8fdc5; WORD $0x4019             // vpsubb    ymm3, ymm0, yword [rcx + rbx + 64]
-	LONG $0x64f8fdc5; WORD $0x6019             // vpsubb    ymm4, ymm0, yword [rcx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
-	QUAD $0x000080198cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rbx + 128]
-	QUAD $0x0000a01994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rbx + 160]
-	QUAD $0x0000c0199cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rbx + 192]
-	QUAD $0x0000e019a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rbx + 224]
-	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
-	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
-	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
-	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
-	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB2_202
-	JMP  LBB2_331
+	JE   LBB2_481
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_323:
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_323
+	JMP  LBB2_482
+
+LBB2_324:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_489
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_326:
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_326
+	JMP  LBB2_490
+
+LBB2_327:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_497
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_329:
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_329
+	JMP  LBB2_498
+
+LBB2_330:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_505
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_332:
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_332
+	JMP  LBB2_506
+
+LBB2_333:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_513
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_335:
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_335
+	JMP  LBB2_514
 
-LBB2_203:
+LBB2_336:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0     // and    esi, -16
 	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
@@ -10194,35 +11125,171 @@ LBB2_203:
 	LONG $0x04e9c149             // shr    r9, 4
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_338
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_205:
-	LONG $0x0cfbfdc5; BYTE $0xd9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx]
-	LONG $0x54fbfdc5; WORD $0x20d9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
-	LONG $0x5cfbfdc5; WORD $0x40d9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
-	LONG $0x64fbfdc5; WORD $0x60d9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
-	QUAD $0x000080d98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx + 128]
-	QUAD $0x0000a0d994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 160]
-	QUAD $0x0000c0d99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 192]
-	QUAD $0x0000e0d9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rbx + 224]
-	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
-	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
-	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
-	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB2_205
-	JMP  LBB2_339
+	JE   LBB2_521
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_338:
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_338
+	JMP  LBB2_522
+
+LBB2_339:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_529
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_341:
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_341
+	JMP  LBB2_530
+
+LBB2_342:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_537
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_344:
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_344
+	JMP  LBB2_538
+
+LBB2_345:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_545
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_347:
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_347
+	JMP  LBB2_546
+
+LBB2_348:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_553
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_350:
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_350
+	JMP  LBB2_554
 
-LBB2_206:
+LBB2_351:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
 	LONG $0xc06ef9c5             // vmovd    xmm0, eax
@@ -10232,27 +11299,27 @@ LBB2_206:
 	LONG $0x05e9c149             // shr    r9, 5
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_346
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_208:
-	LONG $0x0cf9fdc5; BYTE $0x59               // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx]
-	LONG $0x54f9fdc5; WORD $0x2059             // vpsubw    ymm2, ymm0, yword [rcx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x4059             // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx + 64]
-	LONG $0x54f9fdc5; WORD $0x6059             // vpsubw    ymm2, ymm0, yword [rcx + 2*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB2_208
-	JMP  LBB2_347
+	JE   LBB2_561
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_209:
+LBB2_353:
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_353
+	JMP  LBB2_562
+
+LBB2_354:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
 	LONG $0xc06ef9c5             // vmovd    xmm0, eax
@@ -10262,2596 +11329,1517 @@ LBB2_209:
 	LONG $0x05e9c149             // shr    r9, 5
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_354
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_211:
-	LONG $0x0cf9fdc5; BYTE $0x59               // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx]
-	LONG $0x54f9fdc5; WORD $0x2059             // vpsubw    ymm2, ymm0, yword [rcx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x4059             // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx + 64]
-	LONG $0x54f9fdc5; WORD $0x6059             // vpsubw    ymm2, ymm0, yword [rcx + 2*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB2_211
-	JMP  LBB2_355
+	JE   LBB2_569
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_356:
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_356
+	JMP  LBB2_570
 
-LBB2_212:
+LBB2_357:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x05e9c149             // shr    r9, 5
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_362
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_214:
-	LONG $0x0cfbfdc5; BYTE $0xd9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx]
-	LONG $0x54fbfdc5; WORD $0x20d9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
-	LONG $0x5cfbfdc5; WORD $0x40d9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
-	LONG $0x64fbfdc5; WORD $0x60d9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
-	QUAD $0x000080d98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx + 128]
-	QUAD $0x0000a0d994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 160]
-	QUAD $0x0000c0d99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 192]
-	QUAD $0x0000e0d9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rbx + 224]
-	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
-	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
-	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
-	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB2_214
-	JMP  LBB2_363
-
-LBB2_215:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0xe283; BYTE $0xe0     // and    edx, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
-	WORD $0x8948; BYTE $0xf3     // mov    rbx, rsi
-	LONG $0x05ebc148             // shr    rbx, 5
-	LONG $0x01c38348             // add    rbx, 1
-	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
-	JE   LBB2_370
-	WORD $0x8948; BYTE $0xde     // mov    rsi, rbx
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
+	JE   LBB2_577
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
 	WORD $0xff31                 // xor    edi, edi
 
-LBB2_217:
-	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x6c5cf4c5; WORD $0x60b9             // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080b9945cf4c5; BYTE $0x00       // vsubps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b99c5cf4c5; BYTE $0x00       // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b9a45cf4c5; BYTE $0x00       // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9ac5cf4c5; BYTE $0x00       // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+LBB2_359:
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
 	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_217
-	JMP  LBB2_371
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_359
+	JMP  LBB2_578
 
-LBB2_218:
+LBB2_360:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
 	LONG $0xc06ef9c5             // vmovd    xmm0, eax
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x05e9c149             // shr    r9, 5
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_378
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_220:
-	LONG $0x0cf8fdc5; BYTE $0x19               // vpsubb    ymm1, ymm0, yword [rcx + rbx]
-	LONG $0x54f8fdc5; WORD $0x2019             // vpsubb    ymm2, ymm0, yword [rcx + rbx + 32]
-	LONG $0x5cf8fdc5; WORD $0x4019             // vpsubb    ymm3, ymm0, yword [rcx + rbx + 64]
-	LONG $0x64f8fdc5; WORD $0x6019             // vpsubb    ymm4, ymm0, yword [rcx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
-	QUAD $0x000080198cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rbx + 128]
-	QUAD $0x0000a01994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rbx + 160]
-	QUAD $0x0000c0199cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rbx + 192]
-	QUAD $0x0000e019a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rbx + 224]
-	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
-	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
-	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
-	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
-	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB2_220
-	JMP  LBB2_379
+	JE   LBB2_585
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_221:
+LBB2_362:
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_362
+	JMP  LBB2_586
+
+LBB2_363:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
 	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
 	LONG $0x05e9c149             // shr    r9, 5
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_386
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_223:
-	LONG $0x0cfafdc5; BYTE $0x99               // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx]
-	LONG $0x54fafdc5; WORD $0x2099             // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
-	LONG $0x5cfafdc5; WORD $0x4099             // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
-	LONG $0x64fafdc5; WORD $0x6099             // vpsubd    ymm4, ymm0, yword [rcx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
-	QUAD $0x000080998cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx + 128]
-	QUAD $0x0000a09994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 160]
-	QUAD $0x0000c0999cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 192]
-	QUAD $0x0000e099a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rbx + 224]
-	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
-	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
-	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
-	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB2_223
-	JMP  LBB2_387
+	JE   LBB2_593
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_254:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_394
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_256:
-	LONG $0x0cfefdc5; BYTE $0x99               // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx]
-	LONG $0x54fefdc5; WORD $0x2099             // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
-	LONG $0x5cfefdc5; WORD $0x4099             // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
-	LONG $0x64fefdc5; WORD $0x6099             // vpaddd    ymm4, ymm0, yword [rcx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
-	QUAD $0x000080998cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx + 128]
-	QUAD $0x0000a09994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 160]
-	QUAD $0x0000c0999cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 192]
-	QUAD $0x0000e099a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rbx + 224]
-	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
-	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
-	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
-	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_256
-	JMP  LBB2_395
-
-LBB2_257:
-	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
-	LONG $0x04eac149             // shr    r10, 4
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_402
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_259:
-	LONG $0x1458f5c5; BYTE $0xd9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rbx]
-	LONG $0x5c58f5c5; WORD $0x20d9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rbx + 32]
-	LONG $0x6458f5c5; WORD $0x40d9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rbx + 64]
-	LONG $0x6c58f5c5; WORD $0x60d9             // vaddpd    ymm5, ymm1, yword [rcx + 8*rbx + 96]
-	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
-	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xd86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm5
-	QUAD $0x000080d99458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rcx + 8*rbx + 128]
-	QUAD $0x0000a0d99c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rcx + 8*rbx + 160]
-	QUAD $0x0000c0d9a458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rcx + 8*rbx + 192]
-	QUAD $0x0000e0d9ac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rcx + 8*rbx + 224]
-	QUAD $0x0080d894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 128], ymm2
-	QUAD $0x00a0d89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 160], ymm3
-	QUAD $0x00c0d8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 192], ymm4
-	QUAD $0x00e0d8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 224], ymm5
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_259
-	JMP  LBB2_403
-
-LBB2_260:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80468d48             // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x07ebc149             // shr    r11, 7
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_410
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_262:
-	LONG $0x0cfcfdc5; BYTE $0x19               // vpaddb    ymm1, ymm0, yword [rcx + rbx]
-	LONG $0x54fcfdc5; WORD $0x2019             // vpaddb    ymm2, ymm0, yword [rcx + rbx + 32]
-	LONG $0x5cfcfdc5; WORD $0x4019             // vpaddb    ymm3, ymm0, yword [rcx + rbx + 64]
-	LONG $0x64fcfdc5; WORD $0x6019             // vpaddb    ymm4, ymm0, yword [rcx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
-	QUAD $0x000080198cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rbx + 128]
-	QUAD $0x0000a01994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rbx + 160]
-	QUAD $0x0000c0199cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rbx + 192]
-	QUAD $0x0000e019a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rbx + 224]
-	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
-	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
-	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
-	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
-	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_262
-	JMP  LBB2_411
-
-LBB2_263:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_418
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_265:
-	LONG $0x0cd4fdc5; BYTE $0xd9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx]
-	LONG $0x54d4fdc5; WORD $0x20d9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
-	LONG $0x5cd4fdc5; WORD $0x40d9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
-	LONG $0x64d4fdc5; WORD $0x60d9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
-	QUAD $0x000080d98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx + 128]
-	QUAD $0x0000a0d994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 160]
-	QUAD $0x0000c0d99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 192]
-	QUAD $0x0000e0d9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rbx + 224]
-	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
-	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
-	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
-	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_265
-	JMP  LBB2_419
-
-LBB2_266:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_426
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_268:
-	LONG $0x0cfdfdc5; BYTE $0x59               // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx]
-	LONG $0x54fdfdc5; WORD $0x2059             // vpaddw    ymm2, ymm0, yword [rcx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x4059             // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx + 64]
-	LONG $0x54fdfdc5; WORD $0x6059             // vpaddw    ymm2, ymm0, yword [rcx + 2*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_268
-	JMP  LBB2_427
-
-LBB2_269:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_434
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_271:
-	LONG $0x0cfdfdc5; BYTE $0x59               // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx]
-	LONG $0x54fdfdc5; WORD $0x2059             // vpaddw    ymm2, ymm0, yword [rcx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x4059             // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx + 64]
-	LONG $0x54fdfdc5; WORD $0x6059             // vpaddw    ymm2, ymm0, yword [rcx + 2*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_271
-	JMP  LBB2_435
-
-LBB2_272:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_442
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_274:
-	LONG $0x0cd4fdc5; BYTE $0xd9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx]
-	LONG $0x54d4fdc5; WORD $0x20d9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
-	LONG $0x5cd4fdc5; WORD $0x40d9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
-	LONG $0x64d4fdc5; WORD $0x60d9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
-	QUAD $0x000080d98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx + 128]
-	QUAD $0x0000a0d994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 160]
-	QUAD $0x0000c0d99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 192]
-	QUAD $0x0000e0d9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rbx + 224]
-	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
-	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
-	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
-	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_274
-	JMP  LBB2_443
-
-LBB2_275:
-	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
-	LONG $0x05eac149             // shr    r10, 5
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_450
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_277:
-	LONG $0x1458f4c5; BYTE $0x99               // vaddps    ymm2, ymm1, yword [rcx + 4*rbx]
-	LONG $0x5c58f4c5; WORD $0x2099             // vaddps    ymm3, ymm1, yword [rcx + 4*rbx + 32]
-	LONG $0x6458f4c5; WORD $0x4099             // vaddps    ymm4, ymm1, yword [rcx + 4*rbx + 64]
-	LONG $0x6c58f4c5; WORD $0x6099             // vaddps    ymm5, ymm1, yword [rcx + 4*rbx + 96]
-	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
-	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
-	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
-	LONG $0x117cc1c4; WORD $0x986c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm5
-	QUAD $0x000080999458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rcx + 4*rbx + 128]
-	QUAD $0x0000a0999c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rcx + 4*rbx + 160]
-	QUAD $0x0000c099a458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rcx + 4*rbx + 192]
-	QUAD $0x0000e099ac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rcx + 4*rbx + 224]
-	QUAD $0x00809894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 128], ymm2
-	QUAD $0x00a0989c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 160], ymm3
-	QUAD $0x00c098a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 192], ymm4
-	QUAD $0x00e098ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 224], ymm5
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_277
-	JMP  LBB2_451
-
-LBB2_278:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80468d48             // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x07ebc149             // shr    r11, 7
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_458
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_280:
-	LONG $0x0cfcfdc5; BYTE $0x19               // vpaddb    ymm1, ymm0, yword [rcx + rbx]
-	LONG $0x54fcfdc5; WORD $0x2019             // vpaddb    ymm2, ymm0, yword [rcx + rbx + 32]
-	LONG $0x5cfcfdc5; WORD $0x4019             // vpaddb    ymm3, ymm0, yword [rcx + rbx + 64]
-	LONG $0x64fcfdc5; WORD $0x6019             // vpaddb    ymm4, ymm0, yword [rcx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
-	QUAD $0x000080198cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rbx + 128]
-	QUAD $0x0000a01994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rbx + 160]
-	QUAD $0x0000c0199cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rbx + 192]
-	QUAD $0x0000e019a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rbx + 224]
-	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
-	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
-	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
-	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
-	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_280
-	JMP  LBB2_459
-
-LBB2_281:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_466
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_283:
-	LONG $0x0cfefdc5; BYTE $0x99               // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx]
-	LONG $0x54fefdc5; WORD $0x2099             // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
-	LONG $0x5cfefdc5; WORD $0x4099             // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
-	LONG $0x64fefdc5; WORD $0x6099             // vpaddd    ymm4, ymm0, yword [rcx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
-	QUAD $0x000080998cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx + 128]
-	QUAD $0x0000a09994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 160]
-	QUAD $0x0000c0999cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 192]
-	QUAD $0x0000e099a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rbx + 224]
-	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
-	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
-	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
-	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_283
-	JMP  LBB2_467
-
-LBB2_284:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_658
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_286:
-	LONG $0x0cfefdc5; BYTE $0x99               // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx]
-	LONG $0x54fefdc5; WORD $0x2099             // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
-	LONG $0x5cfefdc5; WORD $0x4099             // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
-	LONG $0x64fefdc5; WORD $0x6099             // vpaddd    ymm4, ymm0, yword [rcx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
-	QUAD $0x000080998cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx + 128]
-	QUAD $0x0000a09994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 160]
-	QUAD $0x0000c0999cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 192]
-	QUAD $0x0000e099a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rbx + 224]
-	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
-	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
-	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
-	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_286
-	JMP  LBB2_659
-
-LBB2_287:
-	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
-	LONG $0x04eac149             // shr    r10, 4
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_666
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_289:
-	LONG $0x1458f5c5; BYTE $0xd9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rbx]
-	LONG $0x5c58f5c5; WORD $0x20d9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rbx + 32]
-	LONG $0x6458f5c5; WORD $0x40d9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rbx + 64]
-	LONG $0x6c58f5c5; WORD $0x60d9             // vaddpd    ymm5, ymm1, yword [rcx + 8*rbx + 96]
-	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
-	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xd86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm5
-	QUAD $0x000080d99458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rcx + 8*rbx + 128]
-	QUAD $0x0000a0d99c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rcx + 8*rbx + 160]
-	QUAD $0x0000c0d9a458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rcx + 8*rbx + 192]
-	QUAD $0x0000e0d9ac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rcx + 8*rbx + 224]
-	QUAD $0x0080d894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 128], ymm2
-	QUAD $0x00a0d89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 160], ymm3
-	QUAD $0x00c0d8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 192], ymm4
-	QUAD $0x00e0d8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 224], ymm5
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_289
-	JMP  LBB2_667
-
-LBB2_290:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80468d48             // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x07ebc149             // shr    r11, 7
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_674
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_292:
-	LONG $0x0cfcfdc5; BYTE $0x19               // vpaddb    ymm1, ymm0, yword [rcx + rbx]
-	LONG $0x54fcfdc5; WORD $0x2019             // vpaddb    ymm2, ymm0, yword [rcx + rbx + 32]
-	LONG $0x5cfcfdc5; WORD $0x4019             // vpaddb    ymm3, ymm0, yword [rcx + rbx + 64]
-	LONG $0x64fcfdc5; WORD $0x6019             // vpaddb    ymm4, ymm0, yword [rcx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
-	QUAD $0x000080198cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rbx + 128]
-	QUAD $0x0000a01994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rbx + 160]
-	QUAD $0x0000c0199cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rbx + 192]
-	QUAD $0x0000e019a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rbx + 224]
-	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
-	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
-	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
-	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
-	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_292
-	JMP  LBB2_675
-
-LBB2_293:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_682
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_295:
-	LONG $0x0cd4fdc5; BYTE $0xd9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx]
-	LONG $0x54d4fdc5; WORD $0x20d9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
-	LONG $0x5cd4fdc5; WORD $0x40d9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
-	LONG $0x64d4fdc5; WORD $0x60d9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
-	QUAD $0x000080d98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx + 128]
-	QUAD $0x0000a0d994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 160]
-	QUAD $0x0000c0d99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 192]
-	QUAD $0x0000e0d9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rbx + 224]
-	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
-	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
-	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
-	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_295
-	JMP  LBB2_683
-
-LBB2_296:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_690
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_298:
-	LONG $0x0cfdfdc5; BYTE $0x59               // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx]
-	LONG $0x54fdfdc5; WORD $0x2059             // vpaddw    ymm2, ymm0, yword [rcx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x4059             // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx + 64]
-	LONG $0x54fdfdc5; WORD $0x6059             // vpaddw    ymm2, ymm0, yword [rcx + 2*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_298
-	JMP  LBB2_691
+LBB2_365:
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_365
+	JMP  LBB2_594
 
-LBB2_299:
+LBB2_366:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
 	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_698
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_301:
-	LONG $0x0cfdfdc5; BYTE $0x59               // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx]
-	LONG $0x54fdfdc5; WORD $0x2059             // vpaddw    ymm2, ymm0, yword [rcx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x4059             // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx + 64]
-	LONG $0x54fdfdc5; WORD $0x6059             // vpaddw    ymm2, ymm0, yword [rcx + 2*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_301
-	JMP  LBB2_699
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_601
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_302:
+LBB2_368:
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
+	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_368
+	JMP  LBB2_602
+
+LBB2_369:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
 	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_706
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_304:
-	LONG $0x0cd4fdc5; BYTE $0xd9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx]
-	LONG $0x54d4fdc5; WORD $0x20d9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
-	LONG $0x5cd4fdc5; WORD $0x40d9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
-	LONG $0x64d4fdc5; WORD $0x60d9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
-	QUAD $0x000080d98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx + 128]
-	QUAD $0x0000a0d994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 160]
-	QUAD $0x0000c0d99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 192]
-	QUAD $0x0000e0d9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rbx + 224]
-	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
-	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
-	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
-	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_304
-	JMP  LBB2_707
-
-LBB2_305:
-	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
-	LONG $0x05eac149             // shr    r10, 5
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_714
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_307:
-	LONG $0x1458f4c5; BYTE $0x99               // vaddps    ymm2, ymm1, yword [rcx + 4*rbx]
-	LONG $0x5c58f4c5; WORD $0x2099             // vaddps    ymm3, ymm1, yword [rcx + 4*rbx + 32]
-	LONG $0x6458f4c5; WORD $0x4099             // vaddps    ymm4, ymm1, yword [rcx + 4*rbx + 64]
-	LONG $0x6c58f4c5; WORD $0x6099             // vaddps    ymm5, ymm1, yword [rcx + 4*rbx + 96]
-	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
-	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
-	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
-	LONG $0x117cc1c4; WORD $0x986c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm5
-	QUAD $0x000080999458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rcx + 4*rbx + 128]
-	QUAD $0x0000a0999c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rcx + 4*rbx + 160]
-	QUAD $0x0000c099a458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rcx + 4*rbx + 192]
-	QUAD $0x0000e099ac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rcx + 4*rbx + 224]
-	QUAD $0x00809894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 128], ymm2
-	QUAD $0x00a0989c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 160], ymm3
-	QUAD $0x00c098a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 192], ymm4
-	QUAD $0x00e098ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 224], ymm5
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_307
-	JMP  LBB2_715
-
-LBB2_308:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80468d48             // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x07ebc149             // shr    r11, 7
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_722
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_310:
-	LONG $0x0cfcfdc5; BYTE $0x19               // vpaddb    ymm1, ymm0, yword [rcx + rbx]
-	LONG $0x54fcfdc5; WORD $0x2019             // vpaddb    ymm2, ymm0, yword [rcx + rbx + 32]
-	LONG $0x5cfcfdc5; WORD $0x4019             // vpaddb    ymm3, ymm0, yword [rcx + rbx + 64]
-	LONG $0x64fcfdc5; WORD $0x6019             // vpaddb    ymm4, ymm0, yword [rcx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
-	QUAD $0x000080198cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rbx + 128]
-	QUAD $0x0000a01994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rbx + 160]
-	QUAD $0x0000c0199cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rbx + 192]
-	QUAD $0x0000e019a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rbx + 224]
-	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
-	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
-	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
-	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
-	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_310
-	JMP  LBB2_723
-
-LBB2_311:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_730
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_313:
-	LONG $0x0cfefdc5; BYTE $0x99               // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx]
-	LONG $0x54fefdc5; WORD $0x2099             // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
-	LONG $0x5cfefdc5; WORD $0x4099             // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
-	LONG $0x64fefdc5; WORD $0x6099             // vpaddd    ymm4, ymm0, yword [rcx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
-	QUAD $0x000080998cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx + 128]
-	QUAD $0x0000a09994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 160]
-	QUAD $0x0000c0999cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 192]
-	QUAD $0x0000e099a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rbx + 224]
-	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
-	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
-	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
-	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_313
-	JMP  LBB2_731
-
-LBB2_314:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_315:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_317
-	LONG $0x0cfafdc5; BYTE $0x99               // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx]
-	LONG $0x54fafdc5; WORD $0x2099             // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
-	LONG $0x5cfafdc5; WORD $0x4099             // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
-	LONG $0x44fafdc5; WORD $0x6099             // vpsubd    ymm0, ymm0, yword [rcx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
-
-LBB2_317:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_517
-	JMP  LBB2_318
-
-LBB2_322:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_323:
-	WORD $0xc3f6; BYTE $0x01                   // test    bl, 1
-	JE   LBB2_325
-	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x4c5cf5c5; WORD $0x60f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
-
-LBB2_325:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_517
-	JMP  LBB2_326
-
-LBB2_330:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_331:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_333
-	LONG $0x0cf8fdc5; BYTE $0x19               // vpsubb    ymm1, ymm0, yword [rcx + rbx]
-	LONG $0x54f8fdc5; WORD $0x2019             // vpsubb    ymm2, ymm0, yword [rcx + rbx + 32]
-	LONG $0x5cf8fdc5; WORD $0x4019             // vpsubb    ymm3, ymm0, yword [rcx + rbx + 64]
-	LONG $0x44f8fdc5; WORD $0x6019             // vpsubb    ymm0, ymm0, yword [rcx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
-
-LBB2_333:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_517
-	JMP  LBB2_334
-
-LBB2_338:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_339:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_341
-	LONG $0x0cfbfdc5; BYTE $0xd9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx]
-	LONG $0x54fbfdc5; WORD $0x20d9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
-	LONG $0x5cfbfdc5; WORD $0x40d9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
-	LONG $0x44fbfdc5; WORD $0x60d9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
-
-LBB2_341:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_517
-	JMP  LBB2_342
-
-LBB2_346:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_347:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_349
-	LONG $0x0cf9fdc5; BYTE $0x59               // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx]
-	LONG $0x44f9fdc5; WORD $0x2059             // vpsubw    ymm0, ymm0, yword [rcx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
-
-LBB2_349:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_517
-	JMP  LBB2_350
-
-LBB2_354:
-	WORD $0xdb31 // xor    ebx, ebx
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_609
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_355:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_357
-	LONG $0x0cf9fdc5; BYTE $0x59               // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx]
-	LONG $0x44f9fdc5; WORD $0x2059             // vpsubw    ymm0, ymm0, yword [rcx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+LBB2_371:
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_371
+	JMP  LBB2_610
 
-LBB2_357:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_517
-	JMP  LBB2_358
+LBB2_372:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0     // and    edx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_617
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_362:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_374:
+	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x6c58f4c5; WORD $0x60b9             // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080b99458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b99c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b9a458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9ac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_374
+	JMP  LBB2_618
 
-LBB2_363:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_365
-	LONG $0x0cfbfdc5; BYTE $0xd9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx]
-	LONG $0x54fbfdc5; WORD $0x20d9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
-	LONG $0x5cfbfdc5; WORD $0x40d9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
-	LONG $0x44fbfdc5; WORD $0x60d9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+LBB2_375:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_625
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_365:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_517
-	JMP  LBB2_366
+LBB2_377:
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_377
+	JMP  LBB2_626
 
-LBB2_370:
-	WORD $0xff31 // xor    edi, edi
+LBB2_378:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0     // and    edx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_633
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_371:
-	WORD $0xc3f6; BYTE $0x01                   // test    bl, 1
-	JE   LBB2_373
+LBB2_380:
 	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
 	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
 	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x4c5cf4c5; WORD $0x60b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x6c5cf4c5; WORD $0x60b9             // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
 	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
 	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
 	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
-
-LBB2_373:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_517
-	JMP  LBB2_374
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080b9945cf4c5; BYTE $0x00       // vsubps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b99c5cf4c5; BYTE $0x00       // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b9a45cf4c5; BYTE $0x00       // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9ac5cf4c5; BYTE $0x00       // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_380
+	JMP  LBB2_634
 
-LBB2_378:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_381:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_641
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_379:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_381
-	LONG $0x0cf8fdc5; BYTE $0x19               // vpsubb    ymm1, ymm0, yword [rcx + rbx]
-	LONG $0x54f8fdc5; WORD $0x2019             // vpsubb    ymm2, ymm0, yword [rcx + rbx + 32]
-	LONG $0x5cf8fdc5; WORD $0x4019             // vpsubb    ymm3, ymm0, yword [rcx + rbx + 64]
-	LONG $0x44f8fdc5; WORD $0x6019             // vpsubb    ymm0, ymm0, yword [rcx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+LBB2_383:
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_383
+	JMP  LBB2_642
 
-LBB2_381:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_517
-	JMP  LBB2_382
+LBB2_384:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0     // and    edx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_649
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
 
 LBB2_386:
-	WORD $0xdb31 // xor    ebx, ebx
+	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x6c58f4c5; WORD $0x60b9             // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080b99458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b99c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b9a458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9ac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_386
+	JMP  LBB2_650
 
 LBB2_387:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_389
-	LONG $0x0cfafdc5; BYTE $0x99               // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx]
-	LONG $0x54fafdc5; WORD $0x2099             // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
-	LONG $0x5cfafdc5; WORD $0x4099             // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
-	LONG $0x44fafdc5; WORD $0x6099             // vpsubd    ymm0, ymm0, yword [rcx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
+	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_657
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
 LBB2_389:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_517
-	JMP  LBB2_390
-
-LBB2_394:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_395:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_397
-	LONG $0x0cfefdc5; BYTE $0x99               // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx]
-	LONG $0x54fefdc5; WORD $0x2099             // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
-	LONG $0x5cfefdc5; WORD $0x4099             // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
-	LONG $0x44fefdc5; WORD $0x6099             // vpaddd    ymm0, ymm0, yword [rcx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
-
-LBB2_397:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_474
-	JMP  LBB2_398
-
-LBB2_402:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_403:
-	LONG $0x01c2f641                           // test    r10b, 1
-	JE   LBB2_405
-	LONG $0x1458f5c5; BYTE $0xd9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rbx]
-	LONG $0x5c58f5c5; WORD $0x20d9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rbx + 32]
-	LONG $0x6458f5c5; WORD $0x40d9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rbx + 64]
-	LONG $0x4c58f5c5; WORD $0x60d9             // vaddpd    ymm1, ymm1, yword [rcx + 8*rbx + 96]
-	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
-	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xd84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm1
-
-LBB2_405:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB2_474
-	JMP  LBB2_406
-
-LBB2_410:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_411:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_413
-	LONG $0x0cfcfdc5; BYTE $0x19               // vpaddb    ymm1, ymm0, yword [rcx + rbx]
-	LONG $0x54fcfdc5; WORD $0x2019             // vpaddb    ymm2, ymm0, yword [rcx + rbx + 32]
-	LONG $0x5cfcfdc5; WORD $0x4019             // vpaddb    ymm3, ymm0, yword [rcx + rbx + 64]
-	LONG $0x44fcfdc5; WORD $0x6019             // vpaddb    ymm0, ymm0, yword [rcx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
-
-LBB2_413:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_474
-	JMP  LBB2_414
-
-LBB2_418:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_419:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_421
-	LONG $0x0cd4fdc5; BYTE $0xd9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx]
-	LONG $0x54d4fdc5; WORD $0x20d9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
-	LONG $0x5cd4fdc5; WORD $0x40d9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
-	LONG $0x44d4fdc5; WORD $0x60d9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
-
-LBB2_421:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_474
-	JMP  LBB2_422
-
-LBB2_426:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_427:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_429
-	LONG $0x0cfdfdc5; BYTE $0x59               // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx]
-	LONG $0x44fdfdc5; WORD $0x2059             // vpaddw    ymm0, ymm0, yword [rcx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
-
-LBB2_429:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_474
-	JMP  LBB2_430
-
-LBB2_434:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_435:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_437
-	LONG $0x0cfdfdc5; BYTE $0x59               // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx]
-	LONG $0x44fdfdc5; WORD $0x2059             // vpaddw    ymm0, ymm0, yword [rcx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
-
-LBB2_437:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_474
-	JMP  LBB2_438
-
-LBB2_442:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_443:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_445
-	LONG $0x0cd4fdc5; BYTE $0xd9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx]
-	LONG $0x54d4fdc5; WORD $0x20d9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
-	LONG $0x5cd4fdc5; WORD $0x40d9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
-	LONG $0x44d4fdc5; WORD $0x60d9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
-
-LBB2_445:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_474
-	JMP  LBB2_446
-
-LBB2_450:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_451:
-	LONG $0x01c2f641                           // test    r10b, 1
-	JE   LBB2_453
-	LONG $0x1458f4c5; BYTE $0x99               // vaddps    ymm2, ymm1, yword [rcx + 4*rbx]
-	LONG $0x5c58f4c5; WORD $0x2099             // vaddps    ymm3, ymm1, yword [rcx + 4*rbx + 32]
-	LONG $0x6458f4c5; WORD $0x4099             // vaddps    ymm4, ymm1, yword [rcx + 4*rbx + 64]
-	LONG $0x4c58f4c5; WORD $0x6099             // vaddps    ymm1, ymm1, yword [rcx + 4*rbx + 96]
-	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
-	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
-	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
-	LONG $0x117cc1c4; WORD $0x984c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm1
-
-LBB2_453:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB2_474
-	JMP  LBB2_454
-
-LBB2_458:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_459:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_461
-	LONG $0x0cfcfdc5; BYTE $0x19               // vpaddb    ymm1, ymm0, yword [rcx + rbx]
-	LONG $0x54fcfdc5; WORD $0x2019             // vpaddb    ymm2, ymm0, yword [rcx + rbx + 32]
-	LONG $0x5cfcfdc5; WORD $0x4019             // vpaddb    ymm3, ymm0, yword [rcx + rbx + 64]
-	LONG $0x44fcfdc5; WORD $0x6019             // vpaddb    ymm0, ymm0, yword [rcx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
-
-LBB2_461:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_474
-	JMP  LBB2_462
-
-LBB2_466:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_467:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_469
-	LONG $0x0cfefdc5; BYTE $0x99               // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx]
-	LONG $0x54fefdc5; WORD $0x2099             // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
-	LONG $0x5cfefdc5; WORD $0x4099             // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
-	LONG $0x44fefdc5; WORD $0x6099             // vpaddd    ymm0, ymm0, yword [rcx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
+	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
+	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
+	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
+	QUAD $0x00e0f8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 224], ymm4
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_389
+	JMP  LBB2_658
 
-LBB2_469:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB2_470
+LBB2_390:
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0xe283; BYTE $0xe0     // and    edx, -32
+	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
+	LONG $0xe0728d48             // lea    rsi, [rdx - 32]
+	WORD $0x8949; BYTE $0xf1     // mov    r9, rsi
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
+	JE   LBB2_665
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_474:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_482
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_489
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_499
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_502
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_13
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_481
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_548
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_548
+LBB2_392:
+	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x6c5cf4c5; WORD $0x60b9             // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080b9945cf4c5; BYTE $0x00       // vsubps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b99c5cf4c5; BYTE $0x00       // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b9a45cf4c5; BYTE $0x00       // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9ac5cf4c5; BYTE $0x00       // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_392
+	JMP  LBB2_666
 
-LBB2_481:
-	WORD $0xf631 // xor    esi, esi
+LBB2_393:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_673
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_582:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_584
+LBB2_395:
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_395
+	JMP  LBB2_674
 
-LBB2_583:
-	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_583
+LBB2_396:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_681
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_584:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_13
+LBB2_398:
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_398
+	JMP  LBB2_682
 
-LBB2_585:
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_585
-	JMP  LBB2_13
+LBB2_399:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_689
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_482:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_494
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_505
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_508
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_13
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x0210fbc5         // vmovsd    xmm0, qword [rdx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_488
-	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_551
-	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_551
+LBB2_401:
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_401
+	JMP  LBB2_690
 
-LBB2_488:
-	WORD $0xf631 // xor    esi, esi
+LBB2_402:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0x80     // and    esi, -128
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
+	LONG $0x80568d48             // lea    rdx, [rsi - 128]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x07e9c149             // shr    r9, 7
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_697
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_590:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_592
+LBB2_404:
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
+	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
+	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
+	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
+	QUAD $0x00e038a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 224], ymm4
+	LONG $0x00c78148; WORD $0x0001; BYTE $0x00 // add    rdi, 256
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_404
+	JMP  LBB2_698
 
-LBB2_591:
-	LONG $0x0c5cfbc5; BYTE $0xf1   // vsubsd    xmm1, xmm0, qword [rcx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf00c // vmovsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB2_591
+LBB2_405:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_705
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_592:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB2_13
+LBB2_407:
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_407
+	JMP  LBB2_706
 
-LBB2_593:
-	LONG $0x0c5cfbc5; BYTE $0xf1               // vsubsd    xmm1, xmm0, qword [rcx + 8*rsi]
-	LONG $0x117bc1c4; WORD $0xf00c             // vmovsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x4c5cfbc5; WORD $0x08f1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x4c5cfbc5; WORD $0x10f1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x4c5cfbc5; WORD $0x18f1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x117bc1c4; WORD $0xf04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB2_593
-	JMP  LBB2_13
+LBB2_408:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_713
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_489:
-	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB2_511
-	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
-	JNE  LBB2_13
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8a44; BYTE $0x32                   // mov    r14b, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_493
-	LONG $0x11048d4a                           // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
-	JBE  LBB2_554
-	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB2_554
+LBB2_410:
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_410
+	JMP  LBB2_714
 
-LBB2_493:
-	WORD $0xf631 // xor    esi, esi
+LBB2_411:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_721
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_598:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_600
+LBB2_413:
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_413
+	JMP  LBB2_722
 
-LBB2_599:
-	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_599
+LBB2_414:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
+	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_729
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_600:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_13
+LBB2_416:
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
+	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
+	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
+	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
+	QUAD $0x00e0b8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 224], ymm4
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_416
+	JMP  LBB2_730
 
-LBB2_601:
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_601
-	JMP  LBB2_13
+LBB2_417:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_494:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_514
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_13
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_498
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_557
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_557
+LBB2_418:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_420
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
 
-LBB2_498:
-	WORD $0xf631 // xor    esi, esi
+LBB2_420:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_421
 
-LBB2_606:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_608
+LBB2_425:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_607:
-	WORD $0x894c; BYTE $0xf0 // mov    rax, r14
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_607
+LBB2_426:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_428
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
 
-LBB2_608:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_13
+LBB2_428:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_429
 
-LBB2_609:
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_609
-	JMP  LBB2_13
+LBB2_433:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_499:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x32b70f44         // movzx    r14d, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_501
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_560
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_560
+LBB2_434:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_436
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
 
-LBB2_501:
-	WORD $0xf631 // xor    esi, esi
+LBB2_436:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_437
 
-LBB2_614:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB2_616
+LBB2_441:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_615:
-	WORD $0x8944; BYTE $0xf3     // mov    ebx, r14d
-	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB2_615
+LBB2_442:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_444
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
 
-LBB2_616:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_13
+LBB2_444:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_445
 
-LBB2_617:
-	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_617
-	JMP  LBB2_13
+LBB2_449:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_502:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x32b70f44         // movzx    r14d, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_504
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_563
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_563
+LBB2_450:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_452
+	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x4c58f5c5; WORD $0x60f9             // vaddpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
 
-LBB2_504:
-	WORD $0xf631 // xor    esi, esi
+LBB2_452:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_737
+	JMP  LBB2_453
 
-LBB2_622:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB2_624
+LBB2_457:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_623:
-	WORD $0x8944; BYTE $0xf3     // mov    ebx, r14d
-	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB2_623
+LBB2_458:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_460
+	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x4c5cf5c5; WORD $0x60f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
 
-LBB2_624:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_13
+LBB2_460:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_737
+	JMP  LBB2_461
 
-LBB2_625:
-	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_625
-	JMP  LBB2_13
+LBB2_465:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_505:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_507
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_566
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_566
+LBB2_466:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_468
+	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x4c58f5c5; WORD $0x60f9             // vaddpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
 
-LBB2_507:
-	WORD $0xf631 // xor    esi, esi
+LBB2_468:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_737
+	JMP  LBB2_469
 
-LBB2_630:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_632
+LBB2_473:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_631:
-	WORD $0x894c; BYTE $0xf0 // mov    rax, r14
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_631
+LBB2_474:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_476
+	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x4c5cf5c5; WORD $0x60f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
 
-LBB2_632:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_13
+LBB2_476:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_737
+	JMP  LBB2_477
 
-LBB2_633:
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_633
-	JMP  LBB2_13
+LBB2_481:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_508:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x0210fac5         // vmovss    xmm0, dword [rdx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_510
-	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_569
-	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_569
+LBB2_482:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_484
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
 
-LBB2_510:
-	WORD $0xf631 // xor    esi, esi
+LBB2_484:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_485
 
-LBB2_638:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_640
+LBB2_489:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_639:
-	LONG $0x0c5cfac5; BYTE $0xb1   // vsubss    xmm1, xmm0, dword [rcx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb00c // vmovss    dword [r8 + 4*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB2_639
+LBB2_490:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_492
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
 
-LBB2_640:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB2_13
+LBB2_492:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_493
 
-LBB2_641:
-	LONG $0x0c5cfac5; BYTE $0xb1               // vsubss    xmm1, xmm0, dword [rcx + 4*rsi]
-	LONG $0x117ac1c4; WORD $0xb00c             // vmovss    dword [r8 + 4*rsi], xmm1
-	LONG $0x4c5cfac5; WORD $0x04b1             // vsubss    xmm1, xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm1
-	LONG $0x4c5cfac5; WORD $0x08b1             // vsubss    xmm1, xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm1
-	LONG $0x4c5cfac5; WORD $0x0cb1             // vsubss    xmm1, xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x117ac1c4; WORD $0xb04c; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB2_641
-	JMP  LBB2_13
+LBB2_497:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_511:
-	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8a44; BYTE $0x32                   // mov    r14b, byte [rdx]
-	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
-	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JB   LBB2_513
-	LONG $0x11048d4a                           // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0                   // cmp    rax, r8
-	JBE  LBB2_572
-	LONG $0x10048d4b                           // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JBE  LBB2_572
+LBB2_498:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_500
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
 
-LBB2_513:
-	WORD $0xf631 // xor    esi, esi
+LBB2_500:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_501
 
-LBB2_646:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_648
+LBB2_505:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_647:
-	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_647
+LBB2_506:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_508
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
 
-LBB2_648:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_13
+LBB2_508:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_509
 
-LBB2_649:
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_649
-	JMP  LBB2_13
+LBB2_513:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_514:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_516
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_575
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_575
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_516
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
 
 LBB2_516:
-	WORD $0xf631 // xor    esi, esi
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_517
 
-LBB2_654:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_656
+LBB2_521:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_655:
-	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_655
+LBB2_522:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_524
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
 
-LBB2_656:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_13
+LBB2_524:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_525
 
-LBB2_657:
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_657
-	JMP  LBB2_13
+LBB2_529:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_517:
-	VZEROUPPER
-	RET
+LBB2_530:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_532
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
+
+LBB2_532:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_533
+
+LBB2_537:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_538:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_540
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
 
-LBB2_548:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_578
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB2_540:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_541
 
-LBB2_550:
-	LONG $0x0cfafdc5; BYTE $0x99               // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx]
-	LONG $0x54fafdc5; WORD $0x2099             // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
-	LONG $0x5cfafdc5; WORD $0x4099             // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
-	LONG $0x64fafdc5; WORD $0x6099             // vpsubd    ymm4, ymm0, yword [rcx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
-	QUAD $0x000080998cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx + 128]
-	QUAD $0x0000a09994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 160]
-	QUAD $0x0000c0999cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 192]
-	QUAD $0x0000e099a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rbx + 224]
-	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
-	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
-	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
-	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_550
-	JMP  LBB2_579
+LBB2_545:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_551:
-	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x197de2c4; BYTE $0xc8 // vbroadcastsd    ymm1, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
-	LONG $0x04eac149             // shr    r10, 4
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_586
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB2_546:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_548
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
+
+LBB2_548:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_549
 
 LBB2_553:
-	LONG $0x145cf5c5; BYTE $0xd9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rbx]
-	LONG $0x5c5cf5c5; WORD $0x20d9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rbx + 32]
-	LONG $0x645cf5c5; WORD $0x40d9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rbx + 64]
-	LONG $0x6c5cf5c5; WORD $0x60d9             // vsubpd    ymm5, ymm1, yword [rcx + 8*rbx + 96]
-	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
-	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xd86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm5
-	QUAD $0x000080d9945cf5c5; BYTE $0x00       // vsubpd    ymm2, ymm1, yword [rcx + 8*rbx + 128]
-	QUAD $0x0000a0d99c5cf5c5; BYTE $0x00       // vsubpd    ymm3, ymm1, yword [rcx + 8*rbx + 160]
-	QUAD $0x0000c0d9a45cf5c5; BYTE $0x00       // vsubpd    ymm4, ymm1, yword [rcx + 8*rbx + 192]
-	QUAD $0x0000e0d9ac5cf5c5; BYTE $0x00       // vsubpd    ymm5, ymm1, yword [rcx + 8*rbx + 224]
-	QUAD $0x0080d894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 128], ymm2
-	QUAD $0x00a0d89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 160], ymm3
-	QUAD $0x00c0d8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 192], ymm4
-	QUAD $0x00e0d8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rbx + 224], ymm5
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_553
-	JMP  LBB2_587
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_554:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80468d48             // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x07ebc149             // shr    r11, 7
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_594
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_556
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
 LBB2_556:
-	LONG $0x0cf8fdc5; BYTE $0x19               // vpsubb    ymm1, ymm0, yword [rcx + rbx]
-	LONG $0x54f8fdc5; WORD $0x2019             // vpsubb    ymm2, ymm0, yword [rcx + rbx + 32]
-	LONG $0x5cf8fdc5; WORD $0x4019             // vpsubb    ymm3, ymm0, yword [rcx + rbx + 64]
-	LONG $0x64f8fdc5; WORD $0x6019             // vpsubb    ymm4, ymm0, yword [rcx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
-	QUAD $0x000080198cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rbx + 128]
-	QUAD $0x0000a01994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rbx + 160]
-	QUAD $0x0000c0199cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rbx + 192]
-	QUAD $0x0000e019a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rbx + 224]
-	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
-	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
-	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
-	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
-	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_556
-	JMP  LBB2_595
-
-LBB2_557:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_602
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_559:
-	LONG $0x0cfbfdc5; BYTE $0xd9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx]
-	LONG $0x54fbfdc5; WORD $0x20d9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
-	LONG $0x5cfbfdc5; WORD $0x40d9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
-	LONG $0x64fbfdc5; WORD $0x60d9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
-	QUAD $0x000080d98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx + 128]
-	QUAD $0x0000a0d994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 160]
-	QUAD $0x0000c0d99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 192]
-	QUAD $0x0000e0d9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rbx + 224]
-	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
-	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
-	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
-	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_559
-	JMP  LBB2_603
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_557
 
-LBB2_560:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_610
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB2_561:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_562:
-	LONG $0x0cf9fdc5; BYTE $0x59               // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx]
-	LONG $0x54f9fdc5; WORD $0x2059             // vpsubw    ymm2, ymm0, yword [rcx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x4059             // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx + 64]
-	LONG $0x54f9fdc5; WORD $0x6059             // vpsubw    ymm2, ymm0, yword [rcx + 2*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_562
-	JMP  LBB2_611
-
-LBB2_563:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x797de2c4; BYTE $0xc0 // vpbroadcastw    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_618
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_565:
-	LONG $0x0cf9fdc5; BYTE $0x59               // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx]
-	LONG $0x54f9fdc5; WORD $0x2059             // vpsubw    ymm2, ymm0, yword [rcx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x4059             // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx + 64]
-	LONG $0x54f9fdc5; WORD $0x6059             // vpsubw    ymm2, ymm0, yword [rcx + 2*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x584c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rbx + 64], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rbx + 96], ymm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_565
-	JMP  LBB2_619
-
-LBB2_566:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc6 // vmovq    xmm0, r14
-	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_626
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_564
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
-LBB2_568:
-	LONG $0x0cfbfdc5; BYTE $0xd9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx]
-	LONG $0x54fbfdc5; WORD $0x20d9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
-	LONG $0x5cfbfdc5; WORD $0x40d9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
-	LONG $0x64fbfdc5; WORD $0x60d9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm4
-	QUAD $0x000080d98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx + 128]
-	QUAD $0x0000a0d994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 160]
-	QUAD $0x0000c0d99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 192]
-	QUAD $0x0000e0d9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rbx + 224]
-	QUAD $0x0080d88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 128], ymm1
-	QUAD $0x00a0d8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 160], ymm2
-	QUAD $0x00c0d89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 192], ymm3
-	QUAD $0x00e0d8a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rbx + 224], ymm4
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_568
-	JMP  LBB2_627
+LBB2_564:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_565
 
 LBB2_569:
-	WORD $0x8944; BYTE $0xde     // mov    esi, r11d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x187de2c4; BYTE $0xc8 // vbroadcastss    ymm1, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc2     // mov    r10, rax
-	LONG $0x05eac149             // shr    r10, 5
-	LONG $0x01c28349             // add    r10, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_634
-	WORD $0x894c; BYTE $0xd0     // mov    rax, r10
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_571:
-	LONG $0x145cf4c5; BYTE $0x99               // vsubps    ymm2, ymm1, yword [rcx + 4*rbx]
-	LONG $0x5c5cf4c5; WORD $0x2099             // vsubps    ymm3, ymm1, yword [rcx + 4*rbx + 32]
-	LONG $0x645cf4c5; WORD $0x4099             // vsubps    ymm4, ymm1, yword [rcx + 4*rbx + 64]
-	LONG $0x6c5cf4c5; WORD $0x6099             // vsubps    ymm5, ymm1, yword [rcx + 4*rbx + 96]
-	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
-	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
-	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
-	LONG $0x117cc1c4; WORD $0x986c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm5
-	QUAD $0x00008099945cf4c5; BYTE $0x00       // vsubps    ymm2, ymm1, yword [rcx + 4*rbx + 128]
-	QUAD $0x0000a0999c5cf4c5; BYTE $0x00       // vsubps    ymm3, ymm1, yword [rcx + 4*rbx + 160]
-	QUAD $0x0000c099a45cf4c5; BYTE $0x00       // vsubps    ymm4, ymm1, yword [rcx + 4*rbx + 192]
-	QUAD $0x0000e099ac5cf4c5; BYTE $0x00       // vsubps    ymm5, ymm1, yword [rcx + 4*rbx + 224]
-	QUAD $0x00809894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 128], ymm2
-	QUAD $0x00a0989c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 160], ymm3
-	QUAD $0x00c098a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 192], ymm4
-	QUAD $0x00e098ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rbx + 224], ymm5
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_571
-	JMP  LBB2_635
-
-LBB2_572:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0x80     // and    esi, -128
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x787de2c4; BYTE $0xc0 // vpbroadcastb    ymm0, xmm0
-	LONG $0x80468d48             // lea    rax, [rsi - 128]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x07ebc149             // shr    r11, 7
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_642
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_574:
-	LONG $0x0cf8fdc5; BYTE $0x19               // vpsubb    ymm1, ymm0, yword [rcx + rbx]
-	LONG $0x54f8fdc5; WORD $0x2019             // vpsubb    ymm2, ymm0, yword [rcx + rbx + 32]
-	LONG $0x5cf8fdc5; WORD $0x4019             // vpsubb    ymm3, ymm0, yword [rcx + rbx + 64]
-	LONG $0x64f8fdc5; WORD $0x6019             // vpsubb    ymm4, ymm0, yword [rcx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1864; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm4
-	QUAD $0x000080198cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rbx + 128]
-	QUAD $0x0000a01994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rbx + 160]
-	QUAD $0x0000c0199cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rbx + 192]
-	QUAD $0x0000e019a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rbx + 224]
-	QUAD $0x0080188c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 128], ymm1
-	QUAD $0x00a018947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 160], ymm2
-	QUAD $0x00c0189c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 192], ymm3
-	QUAD $0x00e018a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rbx + 224], ymm4
-	LONG $0x00c38148; WORD $0x0001; BYTE $0x00 // add    rbx, 256
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_574
-	JMP  LBB2_643
+LBB2_570:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_572
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
-LBB2_575:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc6 // vmovd    xmm0, r14d
-	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_650
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB2_572:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_573
 
 LBB2_577:
-	LONG $0x0cfafdc5; BYTE $0x99               // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx]
-	LONG $0x54fafdc5; WORD $0x2099             // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
-	LONG $0x5cfafdc5; WORD $0x4099             // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
-	LONG $0x64fafdc5; WORD $0x6099             // vpsubd    ymm4, ymm0, yword [rcx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm4
-	QUAD $0x000080998cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx + 128]
-	QUAD $0x0000a09994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 160]
-	QUAD $0x0000c0999cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 192]
-	QUAD $0x0000e099a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rbx + 224]
-	QUAD $0x0080988c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 128], ymm1
-	QUAD $0x00a098947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 160], ymm2
-	QUAD $0x00c0989c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 192], ymm3
-	QUAD $0x00e098a47f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rbx + 224], ymm4
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_577
-	JMP  LBB2_651
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_578:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_579:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_581
-	LONG $0x0cfafdc5; BYTE $0x99               // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx]
-	LONG $0x54fafdc5; WORD $0x2099             // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
-	LONG $0x5cfafdc5; WORD $0x4099             // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
-	LONG $0x44fafdc5; WORD $0x6099             // vpsubd    ymm0, ymm0, yword [rcx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_580
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
-LBB2_581:
+LBB2_580:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_13
-	JMP  LBB2_582
+	JE   LBB2_737
+	JMP  LBB2_581
+
+LBB2_585:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_586:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_587:
-	LONG $0x01c2f641                           // test    r10b, 1
-	JE   LBB2_589
-	LONG $0x145cf5c5; BYTE $0xd9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rbx]
-	LONG $0x5c5cf5c5; WORD $0x20d9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rbx + 32]
-	LONG $0x645cf5c5; WORD $0x40d9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rbx + 64]
-	LONG $0x4c5cf5c5; WORD $0x60d9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rbx + 96]
-	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
-	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xd84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm1
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_588
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
-LBB2_589:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB2_13
-	JMP  LBB2_590
+LBB2_588:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_589
+
+LBB2_593:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_594:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_595:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_597
-	LONG $0x0cf8fdc5; BYTE $0x19               // vpsubb    ymm1, ymm0, yword [rcx + rbx]
-	LONG $0x54f8fdc5; WORD $0x2019             // vpsubb    ymm2, ymm0, yword [rcx + rbx + 32]
-	LONG $0x5cf8fdc5; WORD $0x4019             // vpsubb    ymm3, ymm0, yword [rcx + rbx + 64]
-	LONG $0x44f8fdc5; WORD $0x6019             // vpsubb    ymm0, ymm0, yword [rcx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_596
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
-LBB2_597:
+LBB2_596:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_13
-	JMP  LBB2_598
+	JE   LBB2_737
+	JMP  LBB2_597
+
+LBB2_601:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_602:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_603:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_605
-	LONG $0x0cfbfdc5; BYTE $0xd9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx]
-	LONG $0x54fbfdc5; WORD $0x20d9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
-	LONG $0x5cfbfdc5; WORD $0x40d9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
-	LONG $0x44fbfdc5; WORD $0x60d9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_604
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
-LBB2_605:
+LBB2_604:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_13
-	JMP  LBB2_606
+	JE   LBB2_737
+	JMP  LBB2_605
 
-LBB2_610:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_609:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_611:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_613
-	LONG $0x0cf9fdc5; BYTE $0x59               // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx]
-	LONG $0x44f9fdc5; WORD $0x2059             // vpsubw    ymm0, ymm0, yword [rcx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+LBB2_610:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_612
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
 
-LBB2_613:
+LBB2_612:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_13
-	JMP  LBB2_614
+	JE   LBB2_737
+	JMP  LBB2_613
+
+LBB2_617:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_618:
-	WORD $0xdb31 // xor    ebx, ebx
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_620
+	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x4c58f4c5; WORD $0x60b9             // vaddps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
 
-LBB2_619:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_621
-	LONG $0x0cf9fdc5; BYTE $0x59               // vpsubw    ymm1, ymm0, yword [rcx + 2*rbx]
-	LONG $0x44f9fdc5; WORD $0x2059             // vpsubw    ymm0, ymm0, yword [rcx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+LBB2_620:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_737
+	JMP  LBB2_621
 
-LBB2_621:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_13
-	JMP  LBB2_622
+LBB2_625:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_626:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_627:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_629
-	LONG $0x0cfbfdc5; BYTE $0xd9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rbx]
-	LONG $0x54fbfdc5; WORD $0x20d9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
-	LONG $0x5cfbfdc5; WORD $0x40d9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
-	LONG $0x44fbfdc5; WORD $0x60d9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_628
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
 
-LBB2_629:
+LBB2_628:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_13
-	JMP  LBB2_630
+	JE   LBB2_737
+	JMP  LBB2_629
+
+LBB2_633:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_634:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_635:
-	LONG $0x01c2f641                           // test    r10b, 1
-	JE   LBB2_637
-	LONG $0x145cf4c5; BYTE $0x99               // vsubps    ymm2, ymm1, yword [rcx + 4*rbx]
-	LONG $0x5c5cf4c5; WORD $0x2099             // vsubps    ymm3, ymm1, yword [rcx + 4*rbx + 32]
-	LONG $0x645cf4c5; WORD $0x4099             // vsubps    ymm4, ymm1, yword [rcx + 4*rbx + 64]
-	LONG $0x4c5cf4c5; WORD $0x6099             // vsubps    ymm1, ymm1, yword [rcx + 4*rbx + 96]
-	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
-	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
-	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
-	LONG $0x117cc1c4; WORD $0x984c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm1
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_636
+	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x4c5cf4c5; WORD $0x60b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
 
-LBB2_637:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB2_13
-	JMP  LBB2_638
+LBB2_636:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_737
+	JMP  LBB2_637
+
+LBB2_641:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_642:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_643:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_645
-	LONG $0x0cf8fdc5; BYTE $0x19               // vpsubb    ymm1, ymm0, yword [rcx + rbx]
-	LONG $0x54f8fdc5; WORD $0x2019             // vpsubb    ymm2, ymm0, yword [rcx + rbx + 32]
-	LONG $0x5cf8fdc5; WORD $0x4019             // vpsubb    ymm3, ymm0, yword [rcx + rbx + 64]
-	LONG $0x44f8fdc5; WORD $0x6019             // vpsubb    ymm0, ymm0, yword [rcx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_644
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
 
-LBB2_645:
+LBB2_644:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_13
-	JMP  LBB2_646
+	JE   LBB2_737
+	JMP  LBB2_645
+
+LBB2_649:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_650:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_651:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_653
-	LONG $0x0cfafdc5; BYTE $0x99               // vpsubd    ymm1, ymm0, yword [rcx + 4*rbx]
-	LONG $0x54fafdc5; WORD $0x2099             // vpsubd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
-	LONG $0x5cfafdc5; WORD $0x4099             // vpsubd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
-	LONG $0x44fafdc5; WORD $0x6099             // vpsubd    ymm0, ymm0, yword [rcx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_652
+	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x4c58f4c5; WORD $0x60b9             // vaddps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
 
-LBB2_653:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_13
-	JMP  LBB2_654
+LBB2_652:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_737
+	JMP  LBB2_653
+
+LBB2_657:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_658:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_659:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_661
-	LONG $0x0cfefdc5; BYTE $0x99               // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx]
-	LONG $0x54fefdc5; WORD $0x2099             // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
-	LONG $0x5cfefdc5; WORD $0x4099             // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
-	LONG $0x44fefdc5; WORD $0x6099             // vpaddd    ymm0, ymm0, yword [rcx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_660
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xf844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm0
 
-LBB2_661:
+LBB2_660:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_3
-	JMP  LBB2_662
+	JE   LBB2_737
+	JMP  LBB2_661
+
+LBB2_665:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_666:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_667:
-	LONG $0x01c2f641                           // test    r10b, 1
-	JE   LBB2_669
-	LONG $0x1458f5c5; BYTE $0xd9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rbx]
-	LONG $0x5c58f5c5; WORD $0x20d9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rbx + 32]
-	LONG $0x6458f5c5; WORD $0x40d9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rbx + 64]
-	LONG $0x4c58f5c5; WORD $0x60d9             // vaddpd    ymm1, ymm1, yword [rcx + 8*rbx + 96]
-	LONG $0x117dc1c4; WORD $0xd814             // vmovupd    yword [r8 + 8*rbx], ymm2
-	LONG $0x117dc1c4; WORD $0xd85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rbx + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xd864; BYTE $0x40 // vmovupd    yword [r8 + 8*rbx + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xd84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rbx + 96], ymm1
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_668
+	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x4c5cf4c5; WORD $0x60b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
 
-LBB2_669:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB2_3
-	JMP  LBB2_670
+LBB2_668:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_737
+	JMP  LBB2_669
+
+LBB2_673:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_674:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_675:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_677
-	LONG $0x0cfcfdc5; BYTE $0x19               // vpaddb    ymm1, ymm0, yword [rcx + rbx]
-	LONG $0x54fcfdc5; WORD $0x2019             // vpaddb    ymm2, ymm0, yword [rcx + rbx + 32]
-	LONG $0x5cfcfdc5; WORD $0x4019             // vpaddb    ymm3, ymm0, yword [rcx + rbx + 64]
-	LONG $0x44fcfdc5; WORD $0x6019             // vpaddb    ymm0, ymm0, yword [rcx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_676
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
 
-LBB2_677:
+LBB2_676:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_3
-	JMP  LBB2_678
+	JE   LBB2_737
+	JMP  LBB2_677
+
+LBB2_681:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_682:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_683:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_685
-	LONG $0x0cd4fdc5; BYTE $0xd9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx]
-	LONG $0x54d4fdc5; WORD $0x20d9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
-	LONG $0x5cd4fdc5; WORD $0x40d9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
-	LONG $0x44d4fdc5; WORD $0x60d9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_684
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
 
-LBB2_685:
+LBB2_684:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_3
-	JMP  LBB2_686
+	JE   LBB2_737
+	JMP  LBB2_685
 
-LBB2_690:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_689:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_691:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_693
-	LONG $0x0cfdfdc5; BYTE $0x59               // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx]
-	LONG $0x44fdfdc5; WORD $0x2059             // vpaddw    ymm0, ymm0, yword [rcx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+LBB2_690:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_692
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
 
-LBB2_693:
+LBB2_692:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_3
-	JMP  LBB2_694
+	JE   LBB2_737
+	JMP  LBB2_693
 
-LBB2_698:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_697:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_699:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_701
-	LONG $0x0cfdfdc5; BYTE $0x59               // vpaddw    ymm1, ymm0, yword [rcx + 2*rbx]
-	LONG $0x44fdfdc5; WORD $0x2059             // vpaddw    ymm0, ymm0, yword [rcx + 2*rbx + 32]
-	LONG $0x7f7ec1c4; WORD $0x580c             // vmovdqu    yword [r8 + 2*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x5844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rbx + 32], ymm0
+LBB2_698:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_700
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0x3844; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm0
 
-LBB2_701:
+LBB2_700:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_3
-	JMP  LBB2_702
+	JE   LBB2_737
+	JMP  LBB2_701
+
+LBB2_705:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_706:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_707:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_709
-	LONG $0x0cd4fdc5; BYTE $0xd9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rbx]
-	LONG $0x54d4fdc5; WORD $0x20d9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rbx + 32]
-	LONG $0x5cd4fdc5; WORD $0x40d9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rbx + 64]
-	LONG $0x44d4fdc5; WORD $0x60d9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0xd80c             // vmovdqu    yword [r8 + 8*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0xd854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0xd85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0xd844; BYTE $0x60 // vmovdqu    yword [r8 + 8*rbx + 96], ymm0
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_708
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
 
-LBB2_709:
+LBB2_708:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_3
-	JMP  LBB2_710
+	JE   LBB2_737
+	JMP  LBB2_709
+
+LBB2_713:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_714:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_715:
-	LONG $0x01c2f641                           // test    r10b, 1
-	JE   LBB2_717
-	LONG $0x1458f4c5; BYTE $0x99               // vaddps    ymm2, ymm1, yword [rcx + 4*rbx]
-	LONG $0x5c58f4c5; WORD $0x2099             // vaddps    ymm3, ymm1, yword [rcx + 4*rbx + 32]
-	LONG $0x6458f4c5; WORD $0x4099             // vaddps    ymm4, ymm1, yword [rcx + 4*rbx + 64]
-	LONG $0x4c58f4c5; WORD $0x6099             // vaddps    ymm1, ymm1, yword [rcx + 4*rbx + 96]
-	LONG $0x117cc1c4; WORD $0x9814             // vmovups    yword [r8 + 4*rbx], ymm2
-	LONG $0x117cc1c4; WORD $0x985c; BYTE $0x20 // vmovups    yword [r8 + 4*rbx + 32], ymm3
-	LONG $0x117cc1c4; WORD $0x9864; BYTE $0x40 // vmovups    yword [r8 + 4*rbx + 64], ymm4
-	LONG $0x117cc1c4; WORD $0x984c; BYTE $0x60 // vmovups    yword [r8 + 4*rbx + 96], ymm1
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_716
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
 
-LBB2_717:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB2_3
-	JMP  LBB2_718
+LBB2_716:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_717
+
+LBB2_721:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_722:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_723:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_725
-	LONG $0x0cfcfdc5; BYTE $0x19               // vpaddb    ymm1, ymm0, yword [rcx + rbx]
-	LONG $0x54fcfdc5; WORD $0x2019             // vpaddb    ymm2, ymm0, yword [rcx + rbx + 32]
-	LONG $0x5cfcfdc5; WORD $0x4019             // vpaddb    ymm3, ymm0, yword [rcx + rbx + 64]
-	LONG $0x44fcfdc5; WORD $0x6019             // vpaddb    ymm0, ymm0, yword [rcx + rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x180c             // vmovdqu    yword [r8 + rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x1854; BYTE $0x20 // vmovdqu    yword [r8 + rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x185c; BYTE $0x40 // vmovdqu    yword [r8 + rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x1844; BYTE $0x60 // vmovdqu    yword [r8 + rbx + 96], ymm0
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_724
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
 
-LBB2_725:
+LBB2_724:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_3
-	JMP  LBB2_726
+	JE   LBB2_737
+	JMP  LBB2_725
+
+LBB2_729:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_730:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_731:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_733
-	LONG $0x0cfefdc5; BYTE $0x99               // vpaddd    ymm1, ymm0, yword [rcx + 4*rbx]
-	LONG $0x54fefdc5; WORD $0x2099             // vpaddd    ymm2, ymm0, yword [rcx + 4*rbx + 32]
-	LONG $0x5cfefdc5; WORD $0x4099             // vpaddd    ymm3, ymm0, yword [rcx + 4*rbx + 64]
-	LONG $0x44fefdc5; WORD $0x6099             // vpaddd    ymm0, ymm0, yword [rcx + 4*rbx + 96]
-	LONG $0x7f7ec1c4; WORD $0x980c             // vmovdqu    yword [r8 + 4*rbx], ymm1
-	LONG $0x7f7ec1c4; WORD $0x9854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rbx + 32], ymm2
-	LONG $0x7f7ec1c4; WORD $0x985c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rbx + 64], ymm3
-	LONG $0x7f7ec1c4; WORD $0x9844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rbx + 96], ymm0
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_732
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
+	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
+	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
+	LONG $0x7f7ec1c4; WORD $0xb844; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm0
 
-LBB2_733:
+LBB2_732:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_3
-	JMP  LBB2_734
+	JNE  LBB2_733
+
+LBB2_737:
+	VZEROUPPER
+	RET
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s b/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s
index 119848f18b6..b248a26904a 100644
--- a/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s
+++ b/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s
@@ -11,51 +11,49 @@ TEXT ·_arithmetic_sse4(SB), $0-48
 	MOVQ len+40(FP), R9
 
 	LONG $0x01fe8040         // cmp    sil, 1
-	JG   LBB0_3
+	JG   LBB0_10
 	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB0_5
+	JE   LBB0_19
 	LONG $0x01fe8040         // cmp    sil, 1
 	JNE  LBB0_697
-
-LBB0_178:
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_191
+	JG   LBB0_198
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_180
+	JLE  LBB0_5
 	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_232
+	JE   LBB0_239
 	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_248
+	JE   LBB0_255
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_351
+	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_264
+	JAE  LBB0_271
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_273:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_275
+LBB0_280:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_282
 
-LBB0_274:
+LBB0_281:
 	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
 	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
 	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB0_274
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_281
 
-LBB0_275:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_351
+LBB0_282:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
 
-LBB0_276:
+LBB0_283:
 	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
 	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
 	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
@@ -70,20 +68,18 @@ LBB0_276:
 	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_276
-	JMP  LBB0_351
+	JNE  LBB0_283
+	JMP  LBB0_697
 
-LBB0_3:
-	LONG $0x02fe8040 // cmp    sil, 2
-	JE   LBB0_351
-	LONG $0x03fe8040 // cmp    sil, 3
+LBB0_10:
+	LONG $0x02fe8040         // cmp    sil, 2
+	JE   LBB0_358
+	LONG $0x03fe8040         // cmp    sil, 3
 	JNE  LBB0_697
-
-LBB0_524:
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
 	JG   LBB0_537
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_526
+	JLE  LBB0_14
 	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
 	JE   LBB0_578
 	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
@@ -98,23 +94,23 @@ LBB0_524:
 	WORD $0xf631             // xor    esi, esi
 
 LBB0_619:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB0_621
 
 LBB0_620:
-	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
-	WORD $0x1c2b; BYTE $0xb1 // sub    ebx, dword [rcx + 4*rsi]
-	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
+	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB0_620
 
 LBB0_621:
-	LONG $0x03ff8348 // cmp    rdi, 3
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
 LBB0_622:
@@ -135,6 +131,172 @@ LBB0_622:
 	JNE  LBB0_622
 	JMP  LBB0_697
 
+LBB0_19:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_32
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_21
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_73
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_89
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_697
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_105
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_114:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_116
+
+LBB0_115:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_115
+
+LBB0_116:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
+
+LBB0_117:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_117
+	JMP  LBB0_697
+
+LBB0_358:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB0_371
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB0_360
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB0_412
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB0_428
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB0_697
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_444
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_453:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_455
+
+LBB0_454:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_454
+
+LBB0_455:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
+
+LBB0_456:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_456
+	JMP  LBB0_697
+
+LBB0_198:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB0_199
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB0_313
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB0_329
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB0_697
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_345
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_354:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_356
+
+LBB0_355:
+	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x04580ff2; BYTE $0xf2   // addsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_355
+
+LBB0_356:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_697
+
+LBB0_357:
+	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x04580ff2; BYTE $0xf2               // addsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
+	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x44580ff2; WORD $0x08f2             // addsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
+	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x44580ff2; WORD $0x10f2             // addsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
+	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x44580ff2; WORD $0x18f2             // addsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_357
+	JMP  LBB0_697
+
 LBB0_537:
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
 	JLE  LBB0_538
@@ -152,11 +314,11 @@ LBB0_537:
 	WORD $0xf631             // xor    esi, esi
 
 LBB0_693:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB0_695
 
 LBB0_694:
@@ -164,11 +326,11 @@ LBB0_694:
 	LONG $0x045c0ff2; BYTE $0xf1   // subsd    xmm0, qword [rcx + 8*rsi]
 	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
 	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
+	LONG $0xffc78348               // add    rdi, -1
 	JNE  LBB0_694
 
 LBB0_695:
-	LONG $0x03ff8348 // cmp    rdi, 3
+	LONG $0x03f88348 // cmp    rax, 3
 	JB   LBB0_697
 
 LBB0_696:
@@ -189,99 +351,43 @@ LBB0_696:
 	JNE  LBB0_696
 	JMP  LBB0_697
 
-LBB0_5:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_18
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_7
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_59
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_75
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_178
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_697
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_91
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_100:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_102
-
-LBB0_101:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB0_101
-
-LBB0_102:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_178
-
-LBB0_103:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_103
-	JMP  LBB0_178
-
-LBB0_191:
+LBB0_32:
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_192
+	JLE  LBB0_33
 	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_306
+	JE   LBB0_147
 	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_322
+	JE   LBB0_163
 	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_351
+	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_338
+	JAE  LBB0_179
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_347:
+LBB0_188:
 	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
 	WORD $0xf748; BYTE $0xd0 // not    rax
 	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_349
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_190
 
-LBB0_348:
+LBB0_189:
 	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
 	LONG $0x04580ff2; BYTE $0xf2   // addsd    xmm0, qword [rdx + 8*rsi]
 	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
 	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB0_348
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_189
 
-LBB0_349:
+LBB0_190:
 	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_351
+	JB   LBB0_697
 
-LBB0_350:
+LBB0_191:
 	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
 	LONG $0x04580ff2; BYTE $0xf2               // addsd    xmm0, qword [rdx + 8*rsi]
 	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
@@ -296,196 +402,196 @@ LBB0_350:
 	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
 	LONG $0x04c68348                           // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_350
-	JMP  LBB0_351
+	JNE  LBB0_191
+	JMP  LBB0_697
 
-LBB0_18:
+LBB0_371:
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_19
+	JLE  LBB0_372
 	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_133
+	JE   LBB0_486
 	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_149
+	JE   LBB0_502
 	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_178
+	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_165
+	JAE  LBB0_518
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_174:
+LBB0_527:
 	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
 	WORD $0xf748; BYTE $0xd0 // not    rax
 	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_176
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_529
 
-LBB0_175:
-	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04580ff2; BYTE $0xf2   // addsd    xmm0, qword [rdx + 8*rsi]
+LBB0_528:
+	LONG $0x04100ff2; BYTE $0xf2   // movsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045c0ff2; BYTE $0xf1   // subsd    xmm0, qword [rcx + 8*rsi]
 	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
 	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB0_175
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_528
 
-LBB0_176:
+LBB0_529:
 	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_178
+	JB   LBB0_697
 
-LBB0_177:
-	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04580ff2; BYTE $0xf2               // addsd    xmm0, qword [rdx + 8*rsi]
+LBB0_530:
+	LONG $0x04100ff2; BYTE $0xf2               // movsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045c0ff2; BYTE $0xf1               // subsd    xmm0, qword [rcx + 8*rsi]
 	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x44580ff2; WORD $0x08f2             // addsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x44100ff2; WORD $0x08f2             // movsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x445c0ff2; WORD $0x08f1             // subsd    xmm0, qword [rcx + 8*rsi + 8]
 	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x44580ff2; WORD $0x10f2             // addsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x44100ff2; WORD $0x10f2             // movsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x445c0ff2; WORD $0x10f1             // subsd    xmm0, qword [rcx + 8*rsi + 16]
 	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x44580ff2; WORD $0x18f2             // addsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x44100ff2; WORD $0x18f2             // movsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x445c0ff2; WORD $0x18f1             // subsd    xmm0, qword [rcx + 8*rsi + 24]
 	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
 	LONG $0x04c68348                           // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_177
-	JMP  LBB0_178
+	JNE  LBB0_530
+	JMP  LBB0_697
 
-LBB0_526:
+LBB0_5:
 	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_549
+	JE   LBB0_210
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
 	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_565
+	JAE  LBB0_226
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_574:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_576
+LBB0_235:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_237
 
-LBB0_575:
-	LONG $0x321cb60f         // movzx    ebx, byte [rdx + rsi]
-	WORD $0x1c2a; BYTE $0x31 // sub    bl, byte [rcx + rsi]
-	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
+LBB0_236:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_575
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_236
 
-LBB0_576:
-	LONG $0x03ff8348 // cmp    rdi, 3
+LBB0_237:
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_577:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+LBB0_238:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
 	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
 	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
 	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
 	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_577
+	JNE  LBB0_238
 	JMP  LBB0_697
 
-LBB0_538:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_623
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+LBB0_14:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_549
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
 	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_639
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_565
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_648:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_650
+LBB0_574:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_576
 
-LBB0_649:
-	LONG $0xf21c8b48 // mov    rbx, qword [rdx + 8*rsi]
-	LONG $0xf11c2b48 // sub    rbx, qword [rcx + 8*rsi]
-	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_649
+LBB0_575:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_575
 
-LBB0_650:
-	LONG $0x03ff8348 // cmp    rdi, 3
+LBB0_576:
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_651:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+LBB0_577:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_651
+	JNE  LBB0_577
 	JMP  LBB0_697
 
-LBB0_180:
+LBB0_21:
 	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_203
+	JE   LBB0_44
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_351
+	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_219
+	JAE  LBB0_60
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_228:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_230
+LBB0_69:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_71
 
-LBB0_229:
+LBB0_70:
 	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
 	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
 	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB0_229
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_70
 
-LBB0_230:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_351
+LBB0_71:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
 
-LBB0_231:
+LBB0_72:
 	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
 	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
 	LONG $0x30048841             // mov    byte [r8 + rsi], al
@@ -500,42 +606,92 @@ LBB0_231:
 	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_231
-	JMP  LBB0_351
+	JNE  LBB0_72
+	JMP  LBB0_697
+
+LBB0_360:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB0_383
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB0_697
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_399
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_408:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_410
+
+LBB0_409:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_409
+
+LBB0_410:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
 
-LBB0_192:
+LBB0_411:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_411
+	JMP  LBB0_697
+
+LBB0_199:
 	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_277
+	JE   LBB0_284
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_351
+	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_293
+	JAE  LBB0_300
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_302:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_304
+LBB0_309:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_311
 
-LBB0_303:
+LBB0_310:
 	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
 	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
 	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc38348 // add    rbx, -1
-	JNE  LBB0_303
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_310
 
-LBB0_304:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_351
+LBB0_311:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
 
-LBB0_305:
+LBB0_312:
 	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
 	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
 	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
@@ -550,130 +706,142 @@ LBB0_305:
 	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_305
-	JMP  LBB0_351
+	JNE  LBB0_312
+	JMP  LBB0_697
 
-LBB0_578:
+LBB0_538:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_623
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_581
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_639
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_590:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_592
+LBB0_648:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_650
 
-LBB0_591:
-	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
-	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_591
+LBB0_649:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_649
 
-LBB0_592:
-	LONG $0x03ff8348 // cmp    rdi, 3
+LBB0_650:
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_593:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_593
+LBB0_651:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_651
 	JMP  LBB0_697
 
-LBB0_594:
+LBB0_33:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_118
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_597
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_134
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_606:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_608
+LBB0_143:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_145
 
-LBB0_607:
-	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
-	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_607
+LBB0_144:
+	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_144
 
-LBB0_608:
-	LONG $0x03ff8348 // cmp    rdi, 3
+LBB0_145:
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_609:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_609
+LBB0_146:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_146
 	JMP  LBB0_697
 
-LBB0_652:
+LBB0_372:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB0_457
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_655
+	JAE  LBB0_473
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_664:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_666
+LBB0_482:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_484
 
-LBB0_665:
-	LONG $0xf21c8b48 // mov    rbx, qword [rdx + 8*rsi]
-	LONG $0xf11c2b48 // sub    rbx, qword [rcx + 8*rsi]
-	LONG $0xf01c8949 // mov    qword [r8 + 8*rsi], rbx
+LBB0_483:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_665
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_483
 
-LBB0_666:
-	LONG $0x03ff8348 // cmp    rdi, 3
+LBB0_484:
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_667:
+LBB0_485:
 	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
 	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
 	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
@@ -688,276 +856,222 @@ LBB0_667:
 	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_667
+	JNE  LBB0_485
 	JMP  LBB0_697
 
-LBB0_668:
+LBB0_239:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_671
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_242
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_680:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_682
+LBB0_251:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_253
 
-LBB0_681:
-	LONG $0x04100ff3; BYTE $0xb2   // movss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045c0ff3; BYTE $0xb1   // subss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_681
+LBB0_252:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_252
 
-LBB0_682:
-	LONG $0x03ff8348 // cmp    rdi, 3
+LBB0_253:
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_683:
-	LONG $0x04100ff3; BYTE $0xb2               // movss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045c0ff3; BYTE $0xb1               // subss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x44100ff3; WORD $0x04b2             // movss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x445c0ff3; WORD $0x04b1             // subss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x44100ff3; WORD $0x08b2             // movss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x445c0ff3; WORD $0x08b1             // subss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x44100ff3; WORD $0x0cb2             // movss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x445c0ff3; WORD $0x0cb1             // subss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_683
+LBB0_254:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_254
 	JMP  LBB0_697
 
-LBB0_549:
+LBB0_255:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_552
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_258
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_561:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_563
+LBB0_267:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_269
 
-LBB0_562:
-	LONG $0x321cb60f         // movzx    ebx, byte [rdx + rsi]
-	WORD $0x1c2a; BYTE $0x31 // sub    bl, byte [rcx + rsi]
-	LONG $0x301c8841         // mov    byte [r8 + rsi], bl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_562
+LBB0_268:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_268
 
-LBB0_563:
-	LONG $0x03ff8348 // cmp    rdi, 3
+LBB0_269:
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_564:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_564
+LBB0_270:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_270
 	JMP  LBB0_697
 
-LBB0_623:
+LBB0_578:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_626
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_581
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_635:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_637
+LBB0_590:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_592
 
-LBB0_636:
-	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
-	WORD $0x1c2b; BYTE $0xb1 // sub    ebx, dword [rcx + 4*rsi]
-	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_636
+LBB0_591:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_591
 
-LBB0_637:
-	LONG $0x03ff8348 // cmp    rdi, 3
+LBB0_592:
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_638:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_638
+LBB0_593:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_593
 	JMP  LBB0_697
 
-LBB0_7:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_30
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_178
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_697
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_46
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_55:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_57
-
-LBB0_56:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB0_56
-
-LBB0_57:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_178
-
-LBB0_58:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_58
-	JMP  LBB0_178
-
-LBB0_19:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_104
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_178
+LBB0_594:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_120
+	LONG $0x10f98341         // cmp    r9d, 16
+	JAE  LBB0_597
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_129:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_131
+LBB0_606:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_608
 
-LBB0_130:
-	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc38348 // add    rbx, -1
-	JNE  LBB0_130
+LBB0_607:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_607
 
-LBB0_131:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_178
+LBB0_608:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
 
-LBB0_132:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_132
-	JMP  LBB0_178
+LBB0_609:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB0_609
+	JMP  LBB0_697
 
-LBB0_232:
+LBB0_73:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_235
+	JAE  LBB0_76
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_244:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_246
+LBB0_85:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_87
 
-LBB0_245:
+LBB0_86:
 	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
 	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
 	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB0_245
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_86
 
-LBB0_246:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_351
+LBB0_87:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
 
-LBB0_247:
+LBB0_88:
 	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
 	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
@@ -972,38 +1086,38 @@ LBB0_247:
 	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_247
-	JMP  LBB0_351
-
-LBB0_248:
+	JNE  LBB0_88
+	JMP  LBB0_697
+
+LBB0_89:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_251
+	JAE  LBB0_92
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_260:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_262
+LBB0_101:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_103
 
-LBB0_261:
+LBB0_102:
 	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
 	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
 	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB0_261
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_102
 
-LBB0_262:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_351
+LBB0_103:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
 
-LBB0_263:
+LBB0_104:
 	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
 	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
@@ -1018,314 +1132,130 @@ LBB0_263:
 	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_263
-	JMP  LBB0_351
-
-LBB0_306:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_697
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_309
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_318:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_320
-
-LBB0_319:
-	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc38348 // add    rbx, -1
-	JNE  LBB0_319
-
-LBB0_320:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_351
-
-LBB0_321:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_321
-	JMP  LBB0_351
-
-LBB0_322:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_697
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_325
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_334:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_336
-
-LBB0_335:
-	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04580ff3; BYTE $0xb2   // addss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB0_335
-
-LBB0_336:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_351
-
-LBB0_337:
-	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04580ff3; BYTE $0xb2               // addss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x44580ff3; WORD $0x04b2             // addss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x44580ff3; WORD $0x08b2             // addss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x44580ff3; WORD $0x0cb2             // addss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_337
-	JMP  LBB0_351
-
-LBB0_203:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_697
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_206
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_215:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_217
-
-LBB0_216:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB0_216
-
-LBB0_217:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_351
-
-LBB0_218:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_218
-	JMP  LBB0_351
-
-LBB0_277:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_697
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_280
-	WORD $0xf631             // xor    esi, esi
-
-LBB0_289:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_291
-
-LBB0_290:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB0_290
-
-LBB0_291:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_351
-
-LBB0_292:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_292
-	JMP  LBB0_351
+	JNE  LBB0_104
+	JMP  LBB0_697
 
-LBB0_59:
+LBB0_412:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_62
+	JAE  LBB0_415
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_71:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_73
+LBB0_424:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_426
 
-LBB0_72:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
+LBB0_425:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
 	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB0_72
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_425
 
-LBB0_73:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_178
+LBB0_426:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
 
-LBB0_74:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+LBB0_427:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
 	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
 	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
 	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_74
-	JMP  LBB0_178
+	JNE  LBB0_427
+	JMP  LBB0_697
 
-LBB0_75:
+LBB0_428:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_78
+	JAE  LBB0_431
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_87:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_89
+LBB0_440:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_442
 
-LBB0_88:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
+LBB0_441:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
 	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB0_88
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB0_441
 
-LBB0_89:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_178
+LBB0_442:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
 
-LBB0_90:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+LBB0_443:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
 	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
 	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
 	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_90
-	JMP  LBB0_178
+	JNE  LBB0_443
+	JMP  LBB0_697
 
-LBB0_133:
+LBB0_313:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_136
+	JAE  LBB0_316
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_145:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_147
+LBB0_325:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_327
 
-LBB0_146:
+LBB0_326:
 	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
 	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
 	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc38348 // add    rbx, -1
-	JNE  LBB0_146
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_326
 
-LBB0_147:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_178
+LBB0_327:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
 
-LBB0_148:
+LBB0_328:
 	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
 	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
 	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
@@ -1340,38 +1270,38 @@ LBB0_148:
 	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_148
-	JMP  LBB0_178
+	JNE  LBB0_328
+	JMP  LBB0_697
 
-LBB0_149:
+LBB0_329:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_152
+	JAE  LBB0_332
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_161:
+LBB0_341:
 	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
 	WORD $0xf748; BYTE $0xd0 // not    rax
 	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_163
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_343
 
-LBB0_162:
+LBB0_342:
 	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
 	LONG $0x04580ff3; BYTE $0xb2   // addss    xmm0, dword [rdx + 4*rsi]
 	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
 	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB0_162
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_342
 
-LBB0_163:
+LBB0_343:
 	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_178
+	JB   LBB0_697
 
-LBB0_164:
+LBB0_344:
 	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
 	LONG $0x04580ff3; BYTE $0xb2               // addss    xmm0, dword [rdx + 4*rsi]
 	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
@@ -1386,38 +1316,314 @@ LBB0_164:
 	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
 	LONG $0x04c68348                           // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_164
-	JMP  LBB0_178
+	JNE  LBB0_344
+	JMP  LBB0_697
 
-LBB0_30:
+LBB0_652:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_33
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_655
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_42:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_44
-
-LBB0_43:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB0_43
+LBB0_664:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_666
 
-LBB0_44:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_178
+LBB0_665:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_665
 
-LBB0_45:
+LBB0_666:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
+
+LBB0_667:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_667
+	JMP  LBB0_697
+
+LBB0_668:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_671
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_680:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_682
+
+LBB0_681:
+	LONG $0x04100ff3; BYTE $0xb2   // movss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045c0ff3; BYTE $0xb1   // subss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_681
+
+LBB0_682:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_697
+
+LBB0_683:
+	LONG $0x04100ff3; BYTE $0xb2               // movss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045c0ff3; BYTE $0xb1               // subss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x44100ff3; WORD $0x04b2             // movss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x445c0ff3; WORD $0x04b1             // subss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x44100ff3; WORD $0x08b2             // movss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x445c0ff3; WORD $0x08b1             // subss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x44100ff3; WORD $0x0cb2             // movss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x445c0ff3; WORD $0x0cb1             // subss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_683
+	JMP  LBB0_697
+
+LBB0_147:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_150
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_159:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_161
+
+LBB0_160:
+	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_160
+
+LBB0_161:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
+
+LBB0_162:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_162
+	JMP  LBB0_697
+
+LBB0_163:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_166
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_175:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_177
+
+LBB0_176:
+	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x04580ff3; BYTE $0xb2   // addss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_176
+
+LBB0_177:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_697
+
+LBB0_178:
+	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x04580ff3; BYTE $0xb2               // addss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x44580ff3; WORD $0x04b2             // addss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x44580ff3; WORD $0x08b2             // addss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x44580ff3; WORD $0x0cb2             // addss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_178
+	JMP  LBB0_697
+
+LBB0_486:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JAE  LBB0_489
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_498:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_500
+
+LBB0_499:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB0_499
+
+LBB0_500:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
+
+LBB0_501:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_501
+	JMP  LBB0_697
+
+LBB0_502:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_505
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_514:
+	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
+	WORD $0xf748; BYTE $0xd0 // not    rax
+	WORD $0x014c; BYTE $0xd0 // add    rax, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_516
+
+LBB0_515:
+	LONG $0x04100ff3; BYTE $0xb2   // movss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045c0ff3; BYTE $0xb1   // subss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x01c68348               // add    rsi, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB0_515
+
+LBB0_516:
+	LONG $0x03f88348 // cmp    rax, 3
+	JB   LBB0_697
+
+LBB0_517:
+	LONG $0x04100ff3; BYTE $0xb2               // movss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045c0ff3; BYTE $0xb1               // subss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
+	LONG $0x44100ff3; WORD $0x04b2             // movss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x445c0ff3; WORD $0x04b1             // subss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x44100ff3; WORD $0x08b2             // movss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x445c0ff3; WORD $0x08b1             // subss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
+	LONG $0x44100ff3; WORD $0x0cb2             // movss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x445c0ff3; WORD $0x0cb1             // subss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
+	LONG $0x04c68348                           // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
+	JNE  LBB0_517
+	JMP  LBB0_697
+
+LBB0_210:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_213
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_222:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_224
+
+LBB0_223:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_223
+
+LBB0_224:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
+
+LBB0_225:
 	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
 	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
 	LONG $0x30048841             // mov    byte [r8 + rsi], al
@@ -1432,38 +1638,176 @@ LBB0_45:
 	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_45
-	JMP  LBB0_178
+	JNE  LBB0_225
+	JMP  LBB0_697
 
-LBB0_104:
+LBB0_549:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_107
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_552
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_116:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_118
+LBB0_561:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_563
 
-LBB0_117:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+LBB0_562:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB0_117
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_562
 
-LBB0_118:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_178
+LBB0_563:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
+
+LBB0_564:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_564
+	JMP  LBB0_697
+
+LBB0_44:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_47
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_56:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_58
+
+LBB0_57:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_57
+
+LBB0_58:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
+
+LBB0_59:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_59
+	JMP  LBB0_697
+
+LBB0_383:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JAE  LBB0_386
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_395:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_397
+
+LBB0_396:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_396
+
+LBB0_397:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
+
+LBB0_398:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_398
+	JMP  LBB0_697
+
+LBB0_284:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_287
+	WORD $0xf631             // xor    esi, esi
 
-LBB0_119:
+LBB0_296:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_298
+
+LBB0_297:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_297
+
+LBB0_298:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
+
+LBB0_299:
 	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
 	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
 	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
@@ -1478,26 +1822,164 @@ LBB0_119:
 	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_119
-	JMP  LBB0_178
+	JNE  LBB0_299
+	JMP  LBB0_697
 
-LBB0_610:
+LBB0_623:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_626
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_635:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_637
+
+LBB0_636:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_636
+
+LBB0_637:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
+
+LBB0_638:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_638
+	JMP  LBB0_697
+
+LBB0_118:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_121
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_130:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_132
+
+LBB0_131:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_131
+
+LBB0_132:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
+
+LBB0_133:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_133
+	JMP  LBB0_697
+
+LBB0_457:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB0_697
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JAE  LBB0_460
+	WORD $0xf631             // xor    esi, esi
+
+LBB0_469:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB0_471
+
+LBB0_470:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB0_470
+
+LBB0_471:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB0_697
+
+LBB0_472:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB0_472
+	JMP  LBB0_697
+
+LBB0_271:
 	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
 	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
 	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_619
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_280
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_619
+	JNE  LBB0_280
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf8 // and    esi, -8
 	LONG $0xf8468d48         // lea    rax, [rsi - 8]
@@ -1505,311 +1987,311 @@ LBB0_610:
 	LONG $0x03e9c149         // shr    r9, 3
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_613
-	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
+	JE   LBB0_274
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_615:
+LBB0_276:
 	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
 	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
 	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
 	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
 	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_615
-	JMP  LBB0_616
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_276
+	JMP  LBB0_277
 
-LBB0_684:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+LBB0_610:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_693
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_619
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_693
+	JNE  LBB0_619
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
 	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x03e9c149         // shr    r9, 3
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_687
-	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
+	JE   LBB0_613
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_689:
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x30f9             // movupd    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_689
-	JMP  LBB0_690
+LBB0_615:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_615
+	JMP  LBB0_616
 
-LBB0_565:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+LBB0_105:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_574
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_114
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_574
+	JNE  LBB0_114
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
 	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x03e9c149         // shr    r9, 3
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_568
-	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
+	JE   LBB0_108
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_570:
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_570
-	JMP  LBB0_571
+LBB0_110:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_110
+	JMP  LBB0_111
 
-LBB0_639:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+LBB0_444:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_648
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_453
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_648
+	JNE  LBB0_453
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
 	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x03e9c149         // shr    r9, 3
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_642
-	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
+	JE   LBB0_447
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_644:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_644
-	JMP  LBB0_645
+LBB0_449:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_449
+	JMP  LBB0_450
 
-LBB0_581:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+LBB0_345:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_590
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_354
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_590
+	JNE  LBB0_354
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
 	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x02e9c149         // shr    r9, 2
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_584
-	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
+	JE   LBB0_348
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_586:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_586
-	JMP  LBB0_587
+LBB0_350:
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x30f9             // movupd    xmm0, oword [rcx + 8*rdi + 48]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_350
+	JMP  LBB0_351
 
-LBB0_597:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
+LBB0_684:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_606
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_693
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_606
+	JNE  LBB0_693
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
 	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x02e9c149         // shr    r9, 2
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_600
-	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
+	JE   LBB0_687
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_602:
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_602
-	JMP  LBB0_603
+LBB0_689:
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x30f9             // movupd    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_689
+	JMP  LBB0_690
 
-LBB0_655:
+LBB0_179:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
 	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
 	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_664
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_188
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_664
+	JNE  LBB0_188
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xfc // and    esi, -4
 	LONG $0xfc468d48         // lea    rax, [rsi - 4]
@@ -1817,103 +2299,103 @@ LBB0_655:
 	LONG $0x02e9c149         // shr    r9, 2
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_658
-	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
+	JE   LBB0_182
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_660:
-	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+LBB0_184:
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x30f9             // movupd    xmm0, oword [rcx + 8*rdi + 48]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm0
 	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_660
-	JMP  LBB0_661
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_184
+	JMP  LBB0_185
 
-LBB0_671:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+LBB0_518:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_680
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_527
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_680
+	JNE  LBB0_527
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
 	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x02e9c149         // shr    r9, 2
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_674
-	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
+	JE   LBB0_521
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_676:
-	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
-	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
-	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0xb954100f; BYTE $0x30   // movups    xmm2, oword [rcx + 4*rdi + 48]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x44110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x4c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c38348               // add    rbx, 2
-	JNE  LBB0_676
-	JMP  LBB0_677
+LBB0_523:
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x30f9             // movupd    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_523
+	JMP  LBB0_524
 
-LBB0_552:
+LBB0_226:
 	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
 	LONG $0x12048d4a         // lea    rax, [rdx + r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
 	LONG $0x11048d4a         // lea    rax, [rcx + r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_561
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_235
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_561
+	JNE  LBB0_235
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0 // and    esi, -32
 	LONG $0xe0468d48         // lea    rax, [rsi - 32]
@@ -1921,13 +2403,65 @@ LBB0_552:
 	LONG $0x05e9c149         // shr    r9, 5
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_555
-	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
+	JE   LBB0_229
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_557:
+LBB0_231:
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_231
+	JMP  LBB0_232
+
+LBB0_565:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_574
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_574
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_568
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_570:
 	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
 	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
@@ -1945,1168 +2479,873 @@ LBB0_557:
 	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
 	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
 	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_557
-	JMP  LBB0_558
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_570
+	JMP  LBB0_571
 
-LBB0_626:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+LBB0_60:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	LONG $0xd1970f41         // seta    r9b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xd9 // test    r9b, bl
-	JNE  LBB0_635
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_69
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_635
+	JNE  LBB0_69
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
 	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
-	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x05e9c149         // shr    r9, 5
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_629
-	WORD $0x894c; BYTE $0xcb // mov    rbx, r9
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
+	JE   LBB0_63
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_631:
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
-	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
-	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
-	LONG $0x10c78348                           // add    rdi, 16
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_631
-	JMP  LBB0_632
+LBB0_65:
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_65
+	JMP  LBB0_66
 
-LBB0_264:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+LBB0_399:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_273
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_273
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_408
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_408
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x03ebc149         // shr    r11, 3
-	LONG $0x01c38349         // add    r11, 1
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_267
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
+	JE   LBB0_402
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_269:
-	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
-	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1081             // movdqu    xmm0, oword [rcx + 4*rax + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x8014             // movdqu    oword [r8 + 4*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x2082             // movdqu    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3082             // movdqu    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x546f0ff3; WORD $0x2081             // movdqu    xmm2, oword [rcx + 4*rax + 32]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3081             // movdqu    xmm0, oword [rcx + 4*rax + 48]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x8054; BYTE $0x20 // movdqu    oword [r8 + 4*rax + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x30 // movdqu    oword [r8 + 4*rax + 48], xmm0
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_269
-	JMP  LBB0_270
+LBB0_404:
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_404
+	JMP  LBB0_405
 
-LBB0_338:
+LBB0_300:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
 	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd1970f41         // seta    r9b
 	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_347
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_347
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_309
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_309
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xfc // and    esi, -4
 	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x02ebc149         // shr    r11, 2
-	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_341
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
+	JE   LBB0_303
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_343:
-	LONG $0x04100f66; BYTE $0xc2               // movupd    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c100f66; WORD $0x10c2             // movupd    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x14100f66; BYTE $0xc1               // movupd    xmm2, oword [rcx + 8*rax]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10c1             // movupd    xmm0, oword [rcx + 8*rax + 16]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xc014             // movupd    oword [r8 + 8*rax], xmm2
-	LONG $0x110f4166; WORD $0xc044; BYTE $0x10 // movupd    oword [r8 + 8*rax + 16], xmm0
-	LONG $0x44100f66; WORD $0x20c2             // movupd    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0x4c100f66; WORD $0x30c2             // movupd    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0x54100f66; WORD $0x20c1             // movupd    xmm2, oword [rcx + 8*rax + 32]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x30c1             // movupd    xmm0, oword [rcx + 8*rax + 48]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xc054; BYTE $0x20 // movupd    oword [r8 + 8*rax + 32], xmm2
-	LONG $0x110f4166; WORD $0xc044; BYTE $0x30 // movupd    oword [r8 + 8*rax + 48], xmm0
-	LONG $0x08c08348                           // add    rax, 8
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_343
-	JMP  LBB0_344
+LBB0_305:
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_305
+	JMP  LBB0_306
 
-LBB0_219:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+LBB0_639:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_228
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_228
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_648
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_648
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x05ebc149         // shr    r11, 5
-	LONG $0x01c38349         // add    r11, 1
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_222
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
+	JE   LBB0_642
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_224:
-	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
-	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x2002             // movdqu    xmm0, oword [rdx + rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3002             // movdqu    xmm1, oword [rdx + rax + 48]
-	LONG $0x546f0ff3; WORD $0x2001             // movdqu    xmm2, oword [rcx + rax + 32]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3001             // movdqu    xmm0, oword [rcx + rax + 48]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm0
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_224
-	JMP  LBB0_225
+LBB0_644:
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_644
+	JMP  LBB0_645
 
-LBB0_293:
+LBB0_134:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
 	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd1970f41         // seta    r9b
 	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_302
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_302
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_143
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_143
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xfc // and    esi, -4
 	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x02ebc149         // shr    r11, 2
-	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_296
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
+	JE   LBB0_137
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_298:
-	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
+LBB0_139:
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
 	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10c1             // movdqu    xmm0, oword [rcx + 8*rax + 16]
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
 	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xc014             // movdqu    oword [r8 + 8*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20c2             // movdqu    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x30c2             // movdqu    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0x546f0ff3; WORD $0x20c1             // movdqu    xmm2, oword [rcx + 8*rax + 32]
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
 	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30c1             // movdqu    xmm0, oword [rcx + 8*rax + 48]
+	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
 	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xc054; BYTE $0x20 // movdqu    oword [r8 + 8*rax + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x30 // movdqu    oword [r8 + 8*rax + 48], xmm0
-	LONG $0x08c08348                           // add    rax, 8
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_298
-	JMP  LBB0_299
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_139
+	JMP  LBB0_140
 
-LBB0_235:
+LBB0_473:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_482
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_482
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_476
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_478:
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_478
+	JMP  LBB0_479
+
+LBB0_242:
 	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
 	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd1970f41         // seta    r9b
 	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_244
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_244
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_251
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_251
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
 	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x04ebc149         // shr    r11, 4
-	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_238
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_240:
-	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
-	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
+	JE   LBB0_245
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_247:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
 	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1041             // movdqu    xmm0, oword [rcx + 2*rax + 16]
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
 	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x4014             // movdqu    oword [r8 + 2*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x2042             // movdqu    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3042             // movdqu    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x546f0ff3; WORD $0x2041             // movdqu    xmm2, oword [rcx + 2*rax + 32]
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
 	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3041             // movdqu    xmm0, oword [rcx + 2*rax + 48]
+	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
 	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x4054; BYTE $0x20 // movdqu    oword [r8 + 2*rax + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x30 // movdqu    oword [r8 + 2*rax + 48], xmm0
-	LONG $0x20c08348                           // add    rax, 32
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_240
-	JMP  LBB0_241
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_247
+	JMP  LBB0_248
 
-LBB0_251:
+LBB0_258:
 	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
 	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd1970f41         // seta    r9b
 	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_260
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_260
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_267
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_267
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
 	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x04ebc149         // shr    r11, 4
-	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_254
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_256:
-	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
-	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
+	JE   LBB0_261
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_263:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
 	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1041             // movdqu    xmm0, oword [rcx + 2*rax + 16]
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
 	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x4014             // movdqu    oword [r8 + 2*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x2042             // movdqu    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3042             // movdqu    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x546f0ff3; WORD $0x2041             // movdqu    xmm2, oword [rcx + 2*rax + 32]
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
 	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3041             // movdqu    xmm0, oword [rcx + 2*rax + 48]
+	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
 	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x4054; BYTE $0x20 // movdqu    oword [r8 + 2*rax + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x30 // movdqu    oword [r8 + 2*rax + 48], xmm0
-	LONG $0x20c08348                           // add    rax, 32
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_256
-	JMP  LBB0_257
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_263
+	JMP  LBB0_264
 
-LBB0_309:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+LBB0_581:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_318
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_318
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_590
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_590
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x02ebc149         // shr    r11, 2
-	LONG $0x01c38349         // add    r11, 1
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_312
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_314:
-	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10c1             // movdqu    xmm0, oword [rcx + 8*rax + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xc014             // movdqu    oword [r8 + 8*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20c2             // movdqu    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x30c2             // movdqu    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0x546f0ff3; WORD $0x20c1             // movdqu    xmm2, oword [rcx + 8*rax + 32]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30c1             // movdqu    xmm0, oword [rcx + 8*rax + 48]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xc054; BYTE $0x20 // movdqu    oword [r8 + 8*rax + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x30 // movdqu    oword [r8 + 8*rax + 48], xmm0
-	LONG $0x08c08348                           // add    rax, 8
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_314
-	JMP  LBB0_315
+	JE   LBB0_584
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_325:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_334
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_334
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x03ebc149         // shr    r11, 3
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_328
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_330:
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8114100f               // movups    xmm2, oword [rcx + 4*rax]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0x8144100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rax + 16]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0x80   // movups    oword [r8 + 4*rax], xmm2
-	LONG $0x44110f41; WORD $0x1080 // movups    oword [r8 + 4*rax + 16], xmm0
-	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x8154100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rax + 32]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0x8144100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rax + 48]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x54110f41; WORD $0x2080 // movups    oword [r8 + 4*rax + 32], xmm2
-	LONG $0x44110f41; WORD $0x3080 // movups    oword [r8 + 4*rax + 48], xmm0
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x02c38348               // add    rbx, 2
-	JNE  LBB0_330
-	JMP  LBB0_331
-
-LBB0_206:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_215
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_215
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x05ebc149         // shr    r11, 5
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_209
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_211:
-	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
-	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x2002             // movdqu    xmm0, oword [rdx + rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3002             // movdqu    xmm1, oword [rdx + rax + 48]
-	LONG $0x546f0ff3; WORD $0x2001             // movdqu    xmm2, oword [rcx + rax + 32]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3001             // movdqu    xmm0, oword [rcx + rax + 48]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm0
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_211
-	JMP  LBB0_212
+LBB0_586:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_586
+	JMP  LBB0_587
 
-LBB0_280:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_289
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_289
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x03ebc149         // shr    r11, 3
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_283
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_285:
-	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
-	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1081             // movdqu    xmm0, oword [rcx + 4*rax + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x8014             // movdqu    oword [r8 + 4*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x2082             // movdqu    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3082             // movdqu    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x546f0ff3; WORD $0x2081             // movdqu    xmm2, oword [rcx + 4*rax + 32]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3081             // movdqu    xmm0, oword [rcx + 4*rax + 48]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x8054; BYTE $0x20 // movdqu    oword [r8 + 4*rax + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x30 // movdqu    oword [r8 + 4*rax + 48], xmm0
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_285
-	JMP  LBB0_286
-
-LBB0_91:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_100
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_100
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x03ebc149         // shr    r11, 3
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_94
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_96:
-	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
-	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1081             // movdqu    xmm0, oword [rcx + 4*rax + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x8014             // movdqu    oword [r8 + 4*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x2082             // movdqu    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3082             // movdqu    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x546f0ff3; WORD $0x2081             // movdqu    xmm2, oword [rcx + 4*rax + 32]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3081             // movdqu    xmm0, oword [rcx + 4*rax + 48]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x8054; BYTE $0x20 // movdqu    oword [r8 + 4*rax + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x30 // movdqu    oword [r8 + 4*rax + 48], xmm0
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_96
-	JMP  LBB0_97
-
-LBB0_165:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_174
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_174
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x02ebc149         // shr    r11, 2
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_168
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_170:
-	LONG $0x04100f66; BYTE $0xc2               // movupd    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c100f66; WORD $0x10c2             // movupd    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x14100f66; BYTE $0xc1               // movupd    xmm2, oword [rcx + 8*rax]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10c1             // movupd    xmm0, oword [rcx + 8*rax + 16]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xc014             // movupd    oword [r8 + 8*rax], xmm2
-	LONG $0x110f4166; WORD $0xc044; BYTE $0x10 // movupd    oword [r8 + 8*rax + 16], xmm0
-	LONG $0x44100f66; WORD $0x20c2             // movupd    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0x4c100f66; WORD $0x30c2             // movupd    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0x54100f66; WORD $0x20c1             // movupd    xmm2, oword [rcx + 8*rax + 32]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x30c1             // movupd    xmm0, oword [rcx + 8*rax + 48]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xc054; BYTE $0x20 // movupd    oword [r8 + 8*rax + 32], xmm2
-	LONG $0x110f4166; WORD $0xc044; BYTE $0x30 // movupd    oword [r8 + 8*rax + 48], xmm0
-	LONG $0x08c08348                           // add    rax, 8
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_170
-	JMP  LBB0_171
-
-LBB0_46:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+LBB0_597:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd3970f41         // seta    r11b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_55
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_55
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x05ebc149         // shr    r11, 5
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_49
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_51:
-	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
-	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x2002             // movdqu    xmm0, oword [rdx + rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3002             // movdqu    xmm1, oword [rdx + rax + 48]
-	LONG $0x546f0ff3; WORD $0x2001             // movdqu    xmm2, oword [rcx + rax + 32]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3001             // movdqu    xmm0, oword [rcx + rax + 48]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm0
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_51
-	JMP  LBB0_52
-
-LBB0_120:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_129
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_129
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_606
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_606
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x02ebc149         // shr    r11, 2
-	LONG $0x01c38349         // add    r11, 1
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_123
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_125:
-	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10c1             // movdqu    xmm0, oword [rcx + 8*rax + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xc014             // movdqu    oword [r8 + 8*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20c2             // movdqu    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x30c2             // movdqu    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0x546f0ff3; WORD $0x20c1             // movdqu    xmm2, oword [rcx + 8*rax + 32]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30c1             // movdqu    xmm0, oword [rcx + 8*rax + 48]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xc054; BYTE $0x20 // movdqu    oword [r8 + 8*rax + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x30 // movdqu    oword [r8 + 8*rax + 48], xmm0
-	LONG $0x08c08348                           // add    rax, 8
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_125
-	JMP  LBB0_126
-
-LBB0_62:
+	JE   LBB0_600
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_602:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_602
+	JMP  LBB0_603
+
+LBB0_76:
 	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
 	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd1970f41         // seta    r9b
 	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_71
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_71
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_85
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_85
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
 	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x04ebc149         // shr    r11, 4
-	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_65
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_67:
-	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
-	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
+	JE   LBB0_79
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_81:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
 	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1041             // movdqu    xmm0, oword [rcx + 2*rax + 16]
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
 	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x4014             // movdqu    oword [r8 + 2*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x2042             // movdqu    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3042             // movdqu    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x546f0ff3; WORD $0x2041             // movdqu    xmm2, oword [rcx + 2*rax + 32]
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
 	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3041             // movdqu    xmm0, oword [rcx + 2*rax + 48]
+	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
 	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x4054; BYTE $0x20 // movdqu    oword [r8 + 2*rax + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x30 // movdqu    oword [r8 + 2*rax + 48], xmm0
-	LONG $0x20c08348                           // add    rax, 32
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_67
-	JMP  LBB0_68
-
-LBB0_78:
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_81
+	JMP  LBB0_82
+
+LBB0_92:
 	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
 	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd1970f41         // seta    r9b
 	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_87
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_87
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_101
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_101
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
 	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x04ebc149         // shr    r11, 4
-	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_81
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_83:
-	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
-	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
+	JE   LBB0_95
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_97:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
 	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1041             // movdqu    xmm0, oword [rcx + 2*rax + 16]
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
 	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x4014             // movdqu    oword [r8 + 2*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x2042             // movdqu    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3042             // movdqu    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x546f0ff3; WORD $0x2041             // movdqu    xmm2, oword [rcx + 2*rax + 32]
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
 	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3041             // movdqu    xmm0, oword [rcx + 2*rax + 48]
+	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
 	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x4054; BYTE $0x20 // movdqu    oword [r8 + 2*rax + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x30 // movdqu    oword [r8 + 2*rax + 48], xmm0
-	LONG $0x20c08348                           // add    rax, 32
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_83
-	JMP  LBB0_84
-
-LBB0_136:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_97
+	JMP  LBB0_98
+
+LBB0_415:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
 	LONG $0xd3970f41         // seta    r11b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_145
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_145
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x02ebc149         // shr    r11, 2
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_139
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_141:
-	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10c1             // movdqu    xmm0, oword [rcx + 8*rax + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xc014             // movdqu    oword [r8 + 8*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x20c2             // movdqu    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x30c2             // movdqu    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0x546f0ff3; WORD $0x20c1             // movdqu    xmm2, oword [rcx + 8*rax + 32]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30c1             // movdqu    xmm0, oword [rcx + 8*rax + 48]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xc054; BYTE $0x20 // movdqu    oword [r8 + 8*rax + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x30 // movdqu    oword [r8 + 8*rax + 48], xmm0
-	LONG $0x08c08348                           // add    rax, 8
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_141
-	JMP  LBB0_142
-
-LBB0_152:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_161
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_161
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_424
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_424
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x03ebc149         // shr    r11, 3
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_155
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_157:
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8114100f               // movups    xmm2, oword [rcx + 4*rax]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0x8144100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rax + 16]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0x80   // movups    oword [r8 + 4*rax], xmm2
-	LONG $0x44110f41; WORD $0x1080 // movups    oword [r8 + 4*rax + 16], xmm0
-	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x8154100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rax + 32]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0x8144100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rax + 48]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x54110f41; WORD $0x2080 // movups    oword [r8 + 4*rax + 32], xmm2
-	LONG $0x44110f41; WORD $0x3080 // movups    oword [r8 + 4*rax + 48], xmm0
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x02c38348               // add    rbx, 2
-	JNE  LBB0_157
-	JMP  LBB0_158
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_418
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_33:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+LBB0_420:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_420
+	JMP  LBB0_421
+
+LBB0_431:
+	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
+	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_440
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_440
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0 // and    esi, -16
+	LONG $0xf0468d48         // lea    rax, [rsi - 16]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x04e9c149         // shr    r9, 4
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_434
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_436:
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_436
+	JMP  LBB0_437
+
+LBB0_316:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
 	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_42
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_42
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_325
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_325
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x05ebc149         // shr    r11, 5
-	LONG $0x01c38349         // add    r11, 1
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_36
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_38:
-	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
-	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x2002             // movdqu    xmm0, oword [rdx + rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3002             // movdqu    xmm1, oword [rdx + rax + 48]
-	LONG $0x546f0ff3; WORD $0x2001             // movdqu    xmm2, oword [rcx + rax + 32]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3001             // movdqu    xmm0, oword [rcx + rax + 48]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x0054; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm0
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_38
-	JMP  LBB0_39
-
-LBB0_107:
+	JE   LBB0_319
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_321:
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_321
+	JMP  LBB0_322
+
+LBB0_332:
 	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
 	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
+	LONG $0xd1970f41         // seta    r9b
 	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
 	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
+	LONG $0xd3970f41         // seta    r11b
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
 	WORD $0x970f; BYTE $0xd0 // seta    al
 	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
+	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_116
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_116
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_341
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_341
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf8 // and    esi, -8
 	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x03ebc149         // shr    r11, 3
-	LONG $0x01c38349         // add    r11, 1
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_110
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_112:
-	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
-	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1081             // movdqu    xmm0, oword [rcx + 4*rax + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x8014             // movdqu    oword [r8 + 4*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm0
-	LONG $0x446f0ff3; WORD $0x2082             // movdqu    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3082             // movdqu    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x546f0ff3; WORD $0x2081             // movdqu    xmm2, oword [rcx + 4*rax + 32]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3081             // movdqu    xmm0, oword [rcx + 4*rax + 48]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x8054; BYTE $0x20 // movdqu    oword [r8 + 4*rax + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x30 // movdqu    oword [r8 + 4*rax + 48], xmm0
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_112
-	JMP  LBB0_113
-
-LBB0_613:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_616:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_618
-	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
-	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
-
-LBB0_618:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_619
-	JMP  LBB0_697
-
-LBB0_687:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_690:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_692
-	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
-	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
-
-LBB0_692:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_693
-	JMP  LBB0_697
-
-LBB0_568:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_571:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_573
-	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
-	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	JE   LBB0_335
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_573:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_574
-	JMP  LBB0_697
+LBB0_337:
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rdi + 48]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x44110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_337
+	JMP  LBB0_338
 
-LBB0_642:
-	WORD $0xff31 // xor    edi, edi
+LBB0_655:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_664
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_664
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_658
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_645:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_647
+LBB0_660:
 	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
@@ -3115,58 +3354,206 @@ LBB0_645:
 	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
 	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
 	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_660
+	JMP  LBB0_661
 
-LBB0_647:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_648
-	JMP  LBB0_697
-
-LBB0_584:
-	WORD $0xff31 // xor    edi, edi
+LBB0_671:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_680
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_680
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_674
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_587:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_589
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+LBB0_676:
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
+	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0xb954100f; BYTE $0x30   // movups    xmm2, oword [rcx + 4*rdi + 48]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x44110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x4c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_676
+	JMP  LBB0_677
 
-LBB0_589:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_590
-	JMP  LBB0_697
+LBB0_150:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_159
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_159
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_153
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_600:
-	WORD $0xff31 // xor    edi, edi
+LBB0_155:
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_155
+	JMP  LBB0_156
 
-LBB0_603:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_605
-	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
-	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+LBB0_166:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_175
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_175
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_169
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_605:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_606
-	JMP  LBB0_697
+LBB0_171:
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rdi + 48]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x44110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_171
+	JMP  LBB0_172
 
-LBB0_658:
-	WORD $0xff31 // xor    edi, edi
+LBB0_489:
+	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
+	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_498
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_498
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc // and    esi, -4
+	LONG $0xfc468d48         // lea    rax, [rsi - 4]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_492
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_661:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_663
+LBB0_494:
 	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
@@ -3175,18 +3562,50 @@ LBB0_661:
 	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
 	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
 	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_494
+	JMP  LBB0_495
 
-LBB0_663:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_664
-	JMP  LBB0_697
-
-LBB0_674:
-	WORD $0xff31 // xor    edi, edi
+LBB0_505:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_514
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_514
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_508
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_677:
-	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB0_679
+LBB0_510:
 	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
 	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
 	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
@@ -3195,18 +3614,102 @@ LBB0_677:
 	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
 	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
 	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0xb954100f; BYTE $0x30   // movups    xmm2, oword [rcx + 4*rdi + 48]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x44110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x4c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c08348               // add    rax, 2
+	JNE  LBB0_510
+	JMP  LBB0_511
 
-LBB0_679:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_680
-	JMP  LBB0_697
-
-LBB0_555:
-	WORD $0xff31 // xor    edi, edi
-
-LBB0_558:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_560
+LBB0_213:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_222
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_222
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_216
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_218:
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_218
+	JMP  LBB0_219
+
+LBB0_552:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_561
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_561
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_555
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_557:
 	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
 	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
@@ -3215,18 +3718,206 @@ LBB0_558:
 	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
 	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
 	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_557
+	JMP  LBB0_558
 
-LBB0_560:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_561
-	JMP  LBB0_697
+LBB0_47:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_56
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_56
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_50
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_629:
-	WORD $0xff31 // xor    edi, edi
+LBB0_52:
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_52
+	JMP  LBB0_53
 
-LBB0_632:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_634
+LBB0_386:
+	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
+	LONG $0x12048d4a         // lea    rax, [rdx + r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x11048d4a         // lea    rax, [rcx + r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_395
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_395
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0 // and    esi, -32
+	LONG $0xe0468d48         // lea    rax, [rsi - 32]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x05e9c149         // shr    r9, 5
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_389
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_391:
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
+	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_391
+	JMP  LBB0_392
+
+LBB0_287:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_296
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_296
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_290
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_292:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_292
+	JMP  LBB0_293
+
+LBB0_626:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_635
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_635
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_629
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_631:
 	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
@@ -3235,1619 +3926,924 @@ LBB0_632:
 	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
 	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
 	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_631
+	JMP  LBB0_632
 
-LBB0_634:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_635
-	JMP  LBB0_697
+LBB0_121:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_130
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_130
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_124
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
 
-LBB0_267:
-	WORD $0xc031 // xor    eax, eax
+LBB0_126:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_126
+	JMP  LBB0_127
 
-LBB0_270:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_272
-	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
-	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
+LBB0_460:
+	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
+	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	LONG $0xd1970f41         // seta    r9b
+	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
+	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
+	LONG $0xd3970f41         // seta    r11b
+	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
+	WORD $0x970f; BYTE $0xd0 // seta    al
+	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
+	LONG $0xd7970f40         // seta    dil
+	WORD $0xf631             // xor    esi, esi
+	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
+	JNE  LBB0_469
+	WORD $0x2040; BYTE $0xf8 // and    al, dil
+	JNE  LBB0_469
+	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+	LONG $0xf8468d48         // lea    rax, [rsi - 8]
+	WORD $0x8949; BYTE $0xc1 // mov    r9, rax
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xc0 // test    rax, rax
+	JE   LBB0_463
+	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
+	LONG $0xfee08348         // and    rax, -2
+	WORD $0xf748; BYTE $0xd8 // neg    rax
+	WORD $0xff31             // xor    edi, edi
+
+LBB0_465:
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
+	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
+	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_465
+	JMP  LBB0_466
+
+LBB0_274:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_277:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_279
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
 	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1081             // movdqu    xmm0, oword [rcx + 4*rax + 16]
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
 	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x8014             // movdqu    oword [r8 + 4*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm0
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
 
-LBB0_272:
+LBB0_279:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_273
-	JMP  LBB0_351
+	JNE  LBB0_280
+	JMP  LBB0_697
 
-LBB0_341:
-	WORD $0xc031 // xor    eax, eax
+LBB0_613:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_344:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_346
-	LONG $0x04100f66; BYTE $0xc2               // movupd    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c100f66; WORD $0x10c2             // movupd    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x14100f66; BYTE $0xc1               // movupd    xmm2, oword [rcx + 8*rax]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10c1             // movupd    xmm0, oword [rcx + 8*rax + 16]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xc014             // movupd    oword [r8 + 8*rax], xmm2
-	LONG $0x110f4166; WORD $0xc044; BYTE $0x10 // movupd    oword [r8 + 8*rax + 16], xmm0
+LBB0_616:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_618
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
 
-LBB0_346:
+LBB0_618:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_347
-	JMP  LBB0_351
+	JNE  LBB0_619
+	JMP  LBB0_697
 
-LBB0_222:
-	WORD $0xc031 // xor    eax, eax
+LBB0_108:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_225:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_227
-	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
-	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm0
+LBB0_111:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_113
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
 
-LBB0_227:
+LBB0_113:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_228
-	JMP  LBB0_351
+	JNE  LBB0_114
+	JMP  LBB0_697
 
-LBB0_296:
-	WORD $0xc031 // xor    eax, eax
+LBB0_447:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_299:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_301
-	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10c1             // movdqu    xmm0, oword [rcx + 8*rax + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xc014             // movdqu    oword [r8 + 8*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm0
+LBB0_450:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_452
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
 
-LBB0_301:
+LBB0_452:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_302
-	JMP  LBB0_351
+	JNE  LBB0_453
+	JMP  LBB0_697
 
-LBB0_238:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_241:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_243
-	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
-	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1041             // movdqu    xmm0, oword [rcx + 2*rax + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x4014             // movdqu    oword [r8 + 2*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm0
+LBB0_348:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_351:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_353
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
 
-LBB0_243:
+LBB0_353:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_244
-	JMP  LBB0_351
+	JNE  LBB0_354
+	JMP  LBB0_697
 
-LBB0_254:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_257:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_259
-	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
-	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1041             // movdqu    xmm0, oword [rcx + 2*rax + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x4014             // movdqu    oword [r8 + 2*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm0
+LBB0_687:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_690:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_692
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
 
-LBB0_259:
+LBB0_692:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_260
-	JMP  LBB0_351
+	JNE  LBB0_693
+	JMP  LBB0_697
 
-LBB0_312:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_315:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_317
-	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10c1             // movdqu    xmm0, oword [rcx + 8*rax + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xc014             // movdqu    oword [r8 + 8*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm0
+LBB0_182:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_185:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_187
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
 
-LBB0_317:
+LBB0_187:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_318
-	JMP  LBB0_351
+	JNE  LBB0_188
+	JMP  LBB0_697
 
-LBB0_328:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_331:
-	LONG $0x01c3f641               // test    r11b, 1
-	JE   LBB0_333
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8114100f               // movups    xmm2, oword [rcx + 4*rax]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0x8144100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rax + 16]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0x80   // movups    oword [r8 + 4*rax], xmm2
-	LONG $0x44110f41; WORD $0x1080 // movups    oword [r8 + 4*rax + 16], xmm0
+LBB0_521:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_524:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_526
+	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
 
-LBB0_333:
+LBB0_526:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_334
-	JMP  LBB0_351
+	JNE  LBB0_527
+	JMP  LBB0_697
 
-LBB0_209:
-	WORD $0xc031 // xor    eax, eax
+LBB0_229:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_212:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_214
-	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
-	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+LBB0_232:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_234
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
 	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
 	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm0
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
 
-LBB0_214:
+LBB0_234:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_215
-	JMP  LBB0_351
+	JNE  LBB0_235
+	JMP  LBB0_697
 
-LBB0_283:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_286:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_288
-	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
-	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1081             // movdqu    xmm0, oword [rcx + 4*rax + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x8014             // movdqu    oword [r8 + 4*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm0
+LBB0_568:
+	WORD $0xff31 // xor    edi, edi
+
+LBB0_571:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_573
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
 
-LBB0_288:
+LBB0_573:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_289
+	JNE  LBB0_574
+	JMP  LBB0_697
 
-LBB0_351:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_364
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_353
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_405
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_421
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB0_524
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_697
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_437
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_446
+LBB0_63:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_364:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_365
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_479
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_495
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB0_524
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_697
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_511
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_520
+LBB0_66:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_68
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
 
-LBB0_353:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_376
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB0_524
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_697
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_392
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_401
+LBB0_68:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_69
+	JMP  LBB0_697
 
-LBB0_365:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_450
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB0_524
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_697
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_466
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_475
+LBB0_402:
+	WORD $0xff31 // xor    edi, edi
 
 LBB0_405:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_697
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_408
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_417
-
-LBB0_421:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_697
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_424
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_433
-
-LBB0_479:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_697
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_482
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_491
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_407
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
 
-LBB0_495:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_697
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_498
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_507
+LBB0_407:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_408
+	JMP  LBB0_697
 
-LBB0_376:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_697
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_379
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_388
+LBB0_303:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_450:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB0_697
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_453
-	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_462
+LBB0_306:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_308
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
 
-LBB0_697:
-	RET
+LBB0_308:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_309
+	JMP  LBB0_697
 
-LBB0_437:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_446
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_446
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x03ebc149         // shr    r11, 3
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_440
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
+LBB0_642:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_442:
-	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
-	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1081             // movdqu    xmm2, oword [rcx + 4*rax + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x8004             // movdqu    oword [r8 + 4*rax], xmm0
-	LONG $0x7f0f41f3; WORD $0x804c; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x2082             // movdqu    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3082             // movdqu    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x546f0ff3; WORD $0x2081             // movdqu    xmm2, oword [rcx + 4*rax + 32]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3081             // movdqu    xmm2, oword [rcx + 4*rax + 48]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x20 // movdqu    oword [r8 + 4*rax + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x804c; BYTE $0x30 // movdqu    oword [r8 + 4*rax + 48], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_442
-	JMP  LBB0_443
+LBB0_645:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_647
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
 
-LBB0_511:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_520
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_520
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x02ebc149         // shr    r11, 2
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_514
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
+LBB0_647:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_648
+	JMP  LBB0_697
 
-LBB0_516:
-	LONG $0x04100f66; BYTE $0xc2               // movupd    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c100f66; WORD $0x10c2             // movupd    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x14100f66; BYTE $0xc1               // movupd    xmm2, oword [rcx + 8*rax]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x10c1             // movupd    xmm2, oword [rcx + 8*rax + 16]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xc004             // movupd    oword [r8 + 8*rax], xmm0
-	LONG $0x110f4166; WORD $0xc04c; BYTE $0x10 // movupd    oword [r8 + 8*rax + 16], xmm1
-	LONG $0x44100f66; WORD $0x20c2             // movupd    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0x4c100f66; WORD $0x30c2             // movupd    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0x54100f66; WORD $0x20c1             // movupd    xmm2, oword [rcx + 8*rax + 32]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x30c1             // movupd    xmm2, oword [rcx + 8*rax + 48]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xc044; BYTE $0x20 // movupd    oword [r8 + 8*rax + 32], xmm0
-	LONG $0x110f4166; WORD $0xc04c; BYTE $0x30 // movupd    oword [r8 + 8*rax + 48], xmm1
-	LONG $0x08c08348                           // add    rax, 8
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_516
-	JMP  LBB0_517
+LBB0_137:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_392:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_401
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_401
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x05ebc149         // shr    r11, 5
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_395
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
+LBB0_140:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_142
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
 
-LBB0_397:
-	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
-	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1001             // movdqu    xmm2, oword [rcx + rax + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x0004             // movdqu    oword [r8 + rax], xmm0
-	LONG $0x7f0f41f3; WORD $0x004c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x2002             // movdqu    xmm0, oword [rdx + rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3002             // movdqu    xmm1, oword [rdx + rax + 48]
-	LONG $0x546f0ff3; WORD $0x2001             // movdqu    xmm2, oword [rcx + rax + 32]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3001             // movdqu    xmm2, oword [rcx + rax + 48]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x004c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm1
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_397
-	JMP  LBB0_398
+LBB0_142:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_143
+	JMP  LBB0_697
 
-LBB0_466:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_475
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_475
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x02ebc149         // shr    r11, 2
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_469
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
+LBB0_476:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_471:
-	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10c1             // movdqu    xmm2, oword [rcx + 8*rax + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xc004             // movdqu    oword [r8 + 8*rax], xmm0
-	LONG $0x7f0f41f3; WORD $0xc04c; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20c2             // movdqu    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x30c2             // movdqu    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0x546f0ff3; WORD $0x20c1             // movdqu    xmm2, oword [rcx + 8*rax + 32]
+LBB0_479:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_481
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
 	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30c1             // movdqu    xmm2, oword [rcx + 8*rax + 48]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
 	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x20 // movdqu    oword [r8 + 8*rax + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xc04c; BYTE $0x30 // movdqu    oword [r8 + 8*rax + 48], xmm1
-	LONG $0x08c08348                           // add    rax, 8
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_471
-	JMP  LBB0_472
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
 
-LBB0_408:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_417
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_417
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x04ebc149         // shr    r11, 4
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_411
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_413:
-	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
-	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1041             // movdqu    xmm2, oword [rcx + 2*rax + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x4004             // movdqu    oword [r8 + 2*rax], xmm0
-	LONG $0x7f0f41f3; WORD $0x404c; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x2042             // movdqu    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3042             // movdqu    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x546f0ff3; WORD $0x2041             // movdqu    xmm2, oword [rcx + 2*rax + 32]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3041             // movdqu    xmm2, oword [rcx + 2*rax + 48]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x20 // movdqu    oword [r8 + 2*rax + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x404c; BYTE $0x30 // movdqu    oword [r8 + 2*rax + 48], xmm1
-	LONG $0x20c08348                           // add    rax, 32
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_413
-	JMP  LBB0_414
+LBB0_481:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_482
+	JMP  LBB0_697
 
-LBB0_424:
-	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_433
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_433
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0 // and    esi, -16
-	LONG $0xf0468d48         // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x04ebc149         // shr    r11, 4
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_427
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_429:
-	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
-	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1041             // movdqu    xmm2, oword [rcx + 2*rax + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x4004             // movdqu    oword [r8 + 2*rax], xmm0
-	LONG $0x7f0f41f3; WORD $0x404c; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x2042             // movdqu    xmm0, oword [rdx + 2*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3042             // movdqu    xmm1, oword [rdx + 2*rax + 48]
-	LONG $0x546f0ff3; WORD $0x2041             // movdqu    xmm2, oword [rcx + 2*rax + 32]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3041             // movdqu    xmm2, oword [rcx + 2*rax + 48]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x20 // movdqu    oword [r8 + 2*rax + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x404c; BYTE $0x30 // movdqu    oword [r8 + 2*rax + 48], xmm1
-	LONG $0x20c08348                           // add    rax, 32
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_429
-	JMP  LBB0_430
+LBB0_245:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_482:
-	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_491
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_491
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x02ebc149         // shr    r11, 2
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_485
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_487:
-	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10c1             // movdqu    xmm2, oword [rcx + 8*rax + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xc004             // movdqu    oword [r8 + 8*rax], xmm0
-	LONG $0x7f0f41f3; WORD $0xc04c; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x20c2             // movdqu    xmm0, oword [rdx + 8*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x30c2             // movdqu    xmm1, oword [rdx + 8*rax + 48]
-	LONG $0x546f0ff3; WORD $0x20c1             // movdqu    xmm2, oword [rcx + 8*rax + 32]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30c1             // movdqu    xmm2, oword [rcx + 8*rax + 48]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x20 // movdqu    oword [r8 + 8*rax + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xc04c; BYTE $0x30 // movdqu    oword [r8 + 8*rax + 48], xmm1
-	LONG $0x08c08348                           // add    rax, 8
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_487
-	JMP  LBB0_488
-
-LBB0_498:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_507
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_507
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x03ebc149         // shr    r11, 3
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_501
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_503:
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8114100f               // movups    xmm2, oword [rcx + 4*rax]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0x8154100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rax + 16]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x04110f41; BYTE $0x80   // movups    oword [r8 + 4*rax], xmm0
-	LONG $0x4c110f41; WORD $0x1080 // movups    oword [r8 + 4*rax + 16], xmm1
-	LONG $0x8244100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x824c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x8154100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rax + 32]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0x8154100f; BYTE $0x30   // movups    xmm2, oword [rcx + 4*rax + 48]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x44110f41; WORD $0x2080 // movups    oword [r8 + 4*rax + 32], xmm0
-	LONG $0x4c110f41; WORD $0x3080 // movups    oword [r8 + 4*rax + 48], xmm1
-	LONG $0x10c08348               // add    rax, 16
-	LONG $0x02c38348               // add    rbx, 2
-	JNE  LBB0_503
-	JMP  LBB0_504
-
-LBB0_379:
-	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_388
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_388
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0 // and    esi, -32
-	LONG $0xe0468d48         // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x05ebc149         // shr    r11, 5
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_382
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_384:
-	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
-	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1001             // movdqu    xmm2, oword [rcx + rax + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x0004             // movdqu    oword [r8 + rax], xmm0
-	LONG $0x7f0f41f3; WORD $0x004c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x2002             // movdqu    xmm0, oword [rdx + rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3002             // movdqu    xmm1, oword [rdx + rax + 48]
-	LONG $0x546f0ff3; WORD $0x2001             // movdqu    xmm2, oword [rcx + rax + 32]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3001             // movdqu    xmm2, oword [rcx + rax + 48]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x20 // movdqu    oword [r8 + rax + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x004c; BYTE $0x30 // movdqu    oword [r8 + rax + 48], xmm1
-	LONG $0x40c08348                           // add    rax, 64
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_384
-	JMP  LBB0_385
-
-LBB0_453:
-	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	LONG $0xd6970f41         // seta    r14b
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x3948; BYTE $0xd6 // cmp    rsi, rdx
-	WORD $0x970f; BYTE $0xd3 // seta    bl
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	WORD $0x970f; BYTE $0xd0 // seta    al
-	WORD $0x3948; BYTE $0xce // cmp    rsi, rcx
-	LONG $0xd3970f41         // seta    r11b
-	WORD $0xf631             // xor    esi, esi
-	WORD $0x8441; BYTE $0xde // test    r14b, bl
-	JNE  LBB0_462
-	WORD $0x2044; BYTE $0xd8 // and    al, r11b
-	JNE  LBB0_462
-	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3 // mov    r11, rax
-	LONG $0x03ebc149         // shr    r11, 3
-	LONG $0x01c38349         // add    r11, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_456
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0xfee38348         // and    rbx, -2
-	WORD $0xf748; BYTE $0xdb // neg    rbx
-	WORD $0xc031             // xor    eax, eax
-
-LBB0_458:
-	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
-	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1081             // movdqu    xmm2, oword [rcx + 4*rax + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x8004             // movdqu    oword [r8 + 4*rax], xmm0
-	LONG $0x7f0f41f3; WORD $0x804c; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm1
-	LONG $0x446f0ff3; WORD $0x2082             // movdqu    xmm0, oword [rdx + 4*rax + 32]
-	LONG $0x4c6f0ff3; WORD $0x3082             // movdqu    xmm1, oword [rdx + 4*rax + 48]
-	LONG $0x546f0ff3; WORD $0x2081             // movdqu    xmm2, oword [rcx + 4*rax + 32]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3081             // movdqu    xmm2, oword [rcx + 4*rax + 48]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x20 // movdqu    oword [r8 + 4*rax + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x804c; BYTE $0x30 // movdqu    oword [r8 + 4*rax + 48], xmm1
-	LONG $0x10c08348                           // add    rax, 16
-	LONG $0x02c38348                           // add    rbx, 2
-	JNE  LBB0_458
-	JMP  LBB0_459
-
-LBB0_440:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_443:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_445
-	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
-	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1081             // movdqu    xmm2, oword [rcx + 4*rax + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x8004             // movdqu    oword [r8 + 4*rax], xmm0
-	LONG $0x7f0f41f3; WORD $0x804c; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm1
+LBB0_248:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_250
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
 
-LBB0_445:
+LBB0_250:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_524
-
-LBB0_446:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_448
+	JNE  LBB0_251
+	JMP  LBB0_697
 
-LBB0_447:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB0_447
+LBB0_261:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_448:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_524
+LBB0_264:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_266
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
 
-LBB0_449:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_449
-	JMP  LBB0_524
+LBB0_266:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_267
+	JMP  LBB0_697
 
-LBB0_514:
-	WORD $0xc031 // xor    eax, eax
+LBB0_584:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_517:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_519
-	LONG $0x04100f66; BYTE $0xc2               // movupd    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c100f66; WORD $0x10c2             // movupd    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x14100f66; BYTE $0xc1               // movupd    xmm2, oword [rcx + 8*rax]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x10c1             // movupd    xmm2, oword [rcx + 8*rax + 16]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xc004             // movupd    oword [r8 + 8*rax], xmm0
-	LONG $0x110f4166; WORD $0xc04c; BYTE $0x10 // movupd    oword [r8 + 8*rax + 16], xmm1
+LBB0_587:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_589
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
 
-LBB0_519:
+LBB0_589:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_524
-
-LBB0_520:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_522
+	JNE  LBB0_590
+	JMP  LBB0_697
 
-LBB0_521:
-	LONG $0x04100ff2; BYTE $0xf2   // movsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045c0ff2; BYTE $0xf1   // subsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB0_521
+LBB0_600:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_522:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_524
+LBB0_603:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_605
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
 
-LBB0_523:
-	LONG $0x04100ff2; BYTE $0xf2               // movsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045c0ff2; BYTE $0xf1               // subsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x44100ff2; WORD $0x08f2             // movsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x445c0ff2; WORD $0x08f1             // subsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x44100ff2; WORD $0x10f2             // movsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x445c0ff2; WORD $0x10f1             // subsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x44100ff2; WORD $0x18f2             // movsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x445c0ff2; WORD $0x18f1             // subsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_523
-	JMP  LBB0_524
+LBB0_605:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_606
+	JMP  LBB0_697
 
-LBB0_395:
-	WORD $0xc031 // xor    eax, eax
+LBB0_79:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_398:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_400
-	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
-	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1001             // movdqu    xmm2, oword [rcx + rax + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x0004             // movdqu    oword [r8 + rax], xmm0
-	LONG $0x7f0f41f3; WORD $0x004c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm1
+LBB0_82:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_84
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
 
-LBB0_400:
+LBB0_84:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_524
-
-LBB0_401:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_403
+	JNE  LBB0_85
+	JMP  LBB0_697
 
-LBB0_402:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB0_402
+LBB0_95:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_403:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_524
+LBB0_98:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_100
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
 
-LBB0_404:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_404
-	JMP  LBB0_524
+LBB0_100:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_101
+	JMP  LBB0_697
 
-LBB0_469:
-	WORD $0xc031 // xor    eax, eax
+LBB0_418:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_472:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_474
-	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10c1             // movdqu    xmm2, oword [rcx + 8*rax + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xc004             // movdqu    oword [r8 + 8*rax], xmm0
-	LONG $0x7f0f41f3; WORD $0xc04c; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm1
+LBB0_421:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_423
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
 
-LBB0_474:
+LBB0_423:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_524
+	JNE  LBB0_424
+	JMP  LBB0_697
 
-LBB0_475:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_477
+LBB0_434:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_476:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc38348 // add    rbx, -1
-	JNE  LBB0_476
-
-LBB0_477:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_524
-
-LBB0_478:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_478
-	JMP  LBB0_524
-
-LBB0_411:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_414:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_416
-	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
-	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
+LBB0_437:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_439
+	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
+	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
 	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1041             // movdqu    xmm2, oword [rcx + 2*rax + 16]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
 	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x4004             // movdqu    oword [r8 + 2*rax], xmm0
-	LONG $0x7f0f41f3; WORD $0x404c; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm1
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
 
-LBB0_416:
+LBB0_439:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_524
-
-LBB0_417:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_419
-
-LBB0_418:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB0_418
-
-LBB0_419:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_524
+	JNE  LBB0_440
+	JMP  LBB0_697
 
-LBB0_420:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_420
-	JMP  LBB0_524
+LBB0_319:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_427:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_430:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_432
-	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
-	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1041             // movdqu    xmm2, oword [rcx + 2*rax + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x4004             // movdqu    oword [r8 + 2*rax], xmm0
-	LONG $0x7f0f41f3; WORD $0x404c; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm1
+LBB0_322:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_324
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
 
-LBB0_432:
+LBB0_324:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_524
+	JNE  LBB0_325
+	JMP  LBB0_697
 
-LBB0_433:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_435
+LBB0_335:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_434:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB0_434
+LBB0_338:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB0_340
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
 
-LBB0_435:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_524
+LBB0_340:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_341
+	JMP  LBB0_697
 
-LBB0_436:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_436
-	JMP  LBB0_524
+LBB0_658:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_485:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_488:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_490
-	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
+LBB0_661:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_663
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
 	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10c1             // movdqu    xmm2, oword [rcx + 8*rax + 16]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
 	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xc004             // movdqu    oword [r8 + 8*rax], xmm0
-	LONG $0x7f0f41f3; WORD $0xc04c; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm1
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
 
-LBB0_490:
+LBB0_663:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_524
-
-LBB0_491:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_493
-
-LBB0_492:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc38348 // add    rbx, -1
-	JNE  LBB0_492
-
-LBB0_493:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_524
+	JNE  LBB0_664
+	JMP  LBB0_697
 
-LBB0_494:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_494
-	JMP  LBB0_524
+LBB0_674:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_501:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_504:
-	LONG $0x01c3f641               // test    r11b, 1
-	JE   LBB0_506
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8114100f               // movups    xmm2, oword [rcx + 4*rax]
+LBB0_677:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB0_679
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
 	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0x8154100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rax + 16]
+	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
 	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x04110f41; BYTE $0x80   // movups    oword [r8 + 4*rax], xmm0
-	LONG $0x4c110f41; WORD $0x1080 // movups    oword [r8 + 4*rax + 16], xmm1
+	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
+	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
 
-LBB0_506:
+LBB0_679:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_524
-
-LBB0_507:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd0 // add    rax, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_509
-
-LBB0_508:
-	LONG $0x04100ff3; BYTE $0xb2   // movss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045c0ff3; BYTE $0xb1   // subss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB0_508
-
-LBB0_509:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB0_524
-
-LBB0_510:
-	LONG $0x04100ff3; BYTE $0xb2               // movss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045c0ff3; BYTE $0xb1               // subss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x44100ff3; WORD $0x04b2             // movss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x445c0ff3; WORD $0x04b1             // subss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x44100ff3; WORD $0x08b2             // movss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x445c0ff3; WORD $0x08b1             // subss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x44100ff3; WORD $0x0cb2             // movss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x445c0ff3; WORD $0x0cb1             // subss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_510
-	JMP  LBB0_524
+	JNE  LBB0_680
+	JMP  LBB0_697
 
-LBB0_382:
-	WORD $0xc031 // xor    eax, eax
+LBB0_153:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_385:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_387
-	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
-	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1001             // movdqu    xmm2, oword [rcx + rax + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x0004             // movdqu    oword [r8 + rax], xmm0
-	LONG $0x7f0f41f3; WORD $0x004c; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm1
+LBB0_156:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_158
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
 
-LBB0_387:
+LBB0_158:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_524
+	JNE  LBB0_159
+	JMP  LBB0_697
 
-LBB0_388:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_390
+LBB0_169:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_389:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB0_389
+LBB0_172:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB0_174
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
 
-LBB0_390:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_524
+LBB0_174:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_175
+	JMP  LBB0_697
 
-LBB0_391:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_391
-	JMP  LBB0_524
+LBB0_492:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_456:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_459:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_461
-	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
-	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1081             // movdqu    xmm2, oword [rcx + 4*rax + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x8004             // movdqu    oword [r8 + 4*rax], xmm0
-	LONG $0x7f0f41f3; WORD $0x804c; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm1
+LBB0_495:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_497
+	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
 
-LBB0_461:
+LBB0_497:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_524
+	JNE  LBB0_498
+	JMP  LBB0_697
 
-LBB0_462:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB0_464
+LBB0_508:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_463:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB0_463
-
-LBB0_464:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB0_524
+LBB0_511:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB0_513
+	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
+	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
+	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
 
-LBB0_465:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_465
-	JMP  LBB0_524
+LBB0_513:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JNE  LBB0_514
+	JMP  LBB0_697
 
-LBB0_94:
-	WORD $0xc031 // xor    eax, eax
+LBB0_216:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_97:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_99
-	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
-	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1081             // movdqu    xmm0, oword [rcx + 4*rax + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x8014             // movdqu    oword [r8 + 4*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm0
+LBB0_219:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_221
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
 
-LBB0_99:
+LBB0_221:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_178
-	JMP  LBB0_100
+	JNE  LBB0_222
+	JMP  LBB0_697
 
-LBB0_168:
-	WORD $0xc031 // xor    eax, eax
+LBB0_555:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_171:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_173
-	LONG $0x04100f66; BYTE $0xc2               // movupd    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c100f66; WORD $0x10c2             // movupd    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x14100f66; BYTE $0xc1               // movupd    xmm2, oword [rcx + 8*rax]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10c1             // movupd    xmm0, oword [rcx + 8*rax + 16]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xc014             // movupd    oword [r8 + 8*rax], xmm2
-	LONG $0x110f4166; WORD $0xc044; BYTE $0x10 // movupd    oword [r8 + 8*rax + 16], xmm0
+LBB0_558:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_560
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
 
-LBB0_173:
+LBB0_560:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_178
-	JMP  LBB0_174
+	JNE  LBB0_561
+	JMP  LBB0_697
 
-LBB0_49:
-	WORD $0xc031 // xor    eax, eax
+LBB0_50:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_52:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_54
-	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
-	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
+LBB0_53:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_55
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
 	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
 	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm0
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
 
-LBB0_54:
+LBB0_55:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_178
-	JMP  LBB0_55
+	JNE  LBB0_56
+	JMP  LBB0_697
 
-LBB0_123:
-	WORD $0xc031 // xor    eax, eax
+LBB0_389:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_126:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_128
-	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10c1             // movdqu    xmm0, oword [rcx + 8*rax + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xc014             // movdqu    oword [r8 + 8*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm0
+LBB0_392:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_394
+	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
+	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
+	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
 
-LBB0_128:
+LBB0_394:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_178
-	JMP  LBB0_129
+	JNE  LBB0_395
+	JMP  LBB0_697
 
-LBB0_65:
-	WORD $0xc031 // xor    eax, eax
+LBB0_290:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_68:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_70
-	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
-	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1041             // movdqu    xmm0, oword [rcx + 2*rax + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x4014             // movdqu    oword [r8 + 2*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm0
+LBB0_293:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_295
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
 
-LBB0_70:
+LBB0_295:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_178
-	JMP  LBB0_71
+	JNE  LBB0_296
+	JMP  LBB0_697
 
-LBB0_81:
-	WORD $0xc031 // xor    eax, eax
+LBB0_629:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_84:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_86
-	LONG $0x046f0ff3; BYTE $0x42               // movdqu    xmm0, oword [rdx + 2*rax]
-	LONG $0x4c6f0ff3; WORD $0x1042             // movdqu    xmm1, oword [rdx + 2*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x41               // movdqu    xmm2, oword [rcx + 2*rax]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1041             // movdqu    xmm0, oword [rcx + 2*rax + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x4014             // movdqu    oword [r8 + 2*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x4044; BYTE $0x10 // movdqu    oword [r8 + 2*rax + 16], xmm0
+LBB0_632:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_634
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
 
-LBB0_86:
+LBB0_634:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_178
-	JMP  LBB0_87
+	JNE  LBB0_635
+	JMP  LBB0_697
 
-LBB0_139:
-	WORD $0xc031 // xor    eax, eax
+LBB0_124:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_142:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_144
-	LONG $0x046f0ff3; BYTE $0xc2               // movdqu    xmm0, oword [rdx + 8*rax]
-	LONG $0x4c6f0ff3; WORD $0x10c2             // movdqu    xmm1, oword [rdx + 8*rax + 16]
-	LONG $0x146f0ff3; BYTE $0xc1               // movdqu    xmm2, oword [rcx + 8*rax]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10c1             // movdqu    xmm0, oword [rcx + 8*rax + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xc014             // movdqu    oword [r8 + 8*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0xc044; BYTE $0x10 // movdqu    oword [r8 + 8*rax + 16], xmm0
+LBB0_127:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_129
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
 
-LBB0_144:
+LBB0_129:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_178
-	JMP  LBB0_145
-
-LBB0_155:
-	WORD $0xc031 // xor    eax, eax
+	JNE  LBB0_130
+	JMP  LBB0_697
 
-LBB0_158:
-	LONG $0x01c3f641               // test    r11b, 1
-	JE   LBB0_160
-	LONG $0x8204100f               // movups    xmm0, oword [rdx + 4*rax]
-	LONG $0x824c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x8114100f               // movups    xmm2, oword [rcx + 4*rax]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0x8144100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rax + 16]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0x80   // movups    oword [r8 + 4*rax], xmm2
-	LONG $0x44110f41; WORD $0x1080 // movups    oword [r8 + 4*rax + 16], xmm0
+LBB0_463:
+	WORD $0xff31 // xor    edi, edi
 
-LBB0_160:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_178
-	JMP  LBB0_161
-
-LBB0_36:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_39:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_41
-	LONG $0x046f0ff3; BYTE $0x02               // movdqu    xmm0, oword [rdx + rax]
-	LONG $0x4c6f0ff3; WORD $0x1002             // movdqu    xmm1, oword [rdx + rax + 16]
-	LONG $0x146f0ff3; BYTE $0x01               // movdqu    xmm2, oword [rcx + rax]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1001             // movdqu    xmm0, oword [rcx + rax + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x0014             // movdqu    oword [r8 + rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x0044; BYTE $0x10 // movdqu    oword [r8 + rax + 16], xmm0
+LBB0_466:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB0_468
+	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
+	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
+	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
 
-LBB0_41:
+LBB0_468:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_178
-	JMP  LBB0_42
-
-LBB0_110:
-	WORD $0xc031 // xor    eax, eax
-
-LBB0_113:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB0_115
-	LONG $0x046f0ff3; BYTE $0x82               // movdqu    xmm0, oword [rdx + 4*rax]
-	LONG $0x4c6f0ff3; WORD $0x1082             // movdqu    xmm1, oword [rdx + 4*rax + 16]
-	LONG $0x146f0ff3; BYTE $0x81               // movdqu    xmm2, oword [rcx + 4*rax]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1081             // movdqu    xmm0, oword [rcx + 4*rax + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x8014             // movdqu    oword [r8 + 4*rax], xmm2
-	LONG $0x7f0f41f3; WORD $0x8044; BYTE $0x10 // movdqu    oword [r8 + 4*rax + 16], xmm0
+	JNE  LBB0_469
 
-LBB0_115:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB0_178
-	JMP  LBB0_116
+LBB0_697:
+	RET
 
 TEXT ·_arithmetic_arr_scalar_sse4(SB), $0-48
 
@@ -4861,129 +4857,125 @@ TEXT ·_arithmetic_arr_scalar_sse4(SB), $0-48
 	LONG $0x01fe8040         // cmp    sil, 1
 	JG   LBB1_11
 	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB1_28
+	JE   LBB1_21
 	LONG $0x01fe8040         // cmp    sil, 1
-	JNE  LBB1_517
-
-LBB1_3:
+	JNE  LBB1_737
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_36
+	JG   LBB1_37
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_60
+	JLE  LBB1_65
 	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_98
+	JE   LBB1_105
 	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_101
+	JE   LBB1_108
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_474
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
+	JLE  LBB1_737
+	WORD $0x018b             // mov    eax, dword [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
 	JB   LBB1_10
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_254
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_254
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_297
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_297
 
 LBB1_10:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_398:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_400
+LBB1_421:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_423
 
-LBB1_399:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+LBB1_422:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101             // add    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_399
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_422
 
-LBB1_400:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_474
+LBB1_423:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_401:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+LBB1_424:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_401
-	JMP  LBB1_474
+	JNE  LBB1_424
+	JMP  LBB1_737
 
 LBB1_11:
-	LONG $0x02fe8040 // cmp    sil, 2
-	JE   LBB1_474
-	LONG $0x03fe8040 // cmp    sil, 3
-	JNE  LBB1_517
-
-LBB1_13:
+	LONG $0x02fe8040         // cmp    sil, 2
+	JE   LBB1_29
+	LONG $0x03fe8040         // cmp    sil, 3
+	JNE  LBB1_737
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_21
+	JG   LBB1_44
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_50
+	JLE  LBB1_70
 	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_70
+	JE   LBB1_111
 	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_73
+	JE   LBB1_114
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_517
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
+	JLE  LBB1_737
 	WORD $0x018b             // mov    eax, dword [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
 	JB   LBB1_20
 	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_194
+	JBE  LBB1_300
 	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
 	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_194
+	JBE  LBB1_300
 
 LBB1_20:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_318:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_320
-
-LBB1_319:
-	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
-	WORD $0xc329             // sub    ebx, eax
-	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
+LBB1_429:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_431
+
+LBB1_430:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129             // sub    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc18348         // add    rcx, -1
-	JNE  LBB1_319
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_430
 
-LBB1_320:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB1_517
+LBB1_431:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_321:
+LBB1_432:
 	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
 	WORD $0xc129                 // sub    ecx, eax
 	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
@@ -4998,1661 +4990,2438 @@ LBB1_321:
 	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_321
-	JMP  LBB1_517
+	JNE  LBB1_432
+	JMP  LBB1_737
 
 LBB1_21:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_55
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_76
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_79
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_517
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB1_51
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB1_75
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB1_117
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB1_120
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_27
-	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	JLE  LBB1_737
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_28
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_197
-	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	JBE  LBB1_303
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
 	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_197
+	JBE  LBB1_303
 
-LBB1_27:
-	WORD $0xc931 // xor    ecx, ecx
+LBB1_28:
+	WORD $0xf631 // xor    esi, esi
 
-LBB1_326:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+LBB1_437:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_328
+	JE   LBB1_439
 
-LBB1_327:
-	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85c0ff2               // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_327
+LBB1_438:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101             // add    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_438
 
-LBB1_328:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_517
+LBB1_439:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_329:
-	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_329
-	JMP  LBB1_517
+LBB1_440:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_440
+	JMP  LBB1_737
 
-LBB1_28:
+LBB1_29:
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_43
+	JG   LBB1_58
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_88
+	JLE  LBB1_80
 	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_116
+	JE   LBB1_123
 	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_119
+	JE   LBB1_126
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_3
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
+	JLE  LBB1_737
+	WORD $0x018b             // mov    eax, dword [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_35
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_284
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_284
+	JB   LBB1_36
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_306
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_306
 
-LBB1_35:
+LBB1_36:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_662:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_664
+LBB1_445:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_447
 
-LBB1_663:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+LBB1_446:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129             // sub    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_663
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_446
 
-LBB1_664:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_3
+LBB1_447:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_665:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+LBB1_448:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_665
-	JMP  LBB1_3
+	JNE  LBB1_448
+	JMP  LBB1_737
 
-LBB1_36:
+LBB1_37:
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_65
+	JLE  LBB1_85
 	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_104
+	JE   LBB1_129
 	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_107
+	JE   LBB1_132
 	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_474
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
+	JLE  LBB1_737
 	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_42
-	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_257
-	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_257
+	JB   LBB1_43
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_309
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_309
 
-LBB1_42:
-	WORD $0xf631 // xor    esi, esi
+LBB1_43:
+	WORD $0xc931 // xor    ecx, ecx
 
-LBB1_406:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_408
+LBB1_453:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_455
 
-LBB1_407:
-	LONG $0x0c100ff2; BYTE $0xf2   // movsd    xmm1, qword [rdx + 8*rsi]
+LBB1_454:
+	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
 	LONG $0xc8580ff2               // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB1_407
+	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_454
 
-LBB1_408:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB1_474
+LBB1_455:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_737
 
-LBB1_409:
-	LONG $0x0c100ff2; BYTE $0xf2               // movsd    xmm1, qword [rdx + 8*rsi]
+LBB1_456:
+	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
 	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf00c             // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x4c100ff2; WORD $0x08f2             // movsd    xmm1, qword [rdx + 8*rsi + 8]
+	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
 	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10f2             // movsd    xmm1, qword [rdx + 8*rsi + 16]
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
 	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18f2             // movsd    xmm1, qword [rdx + 8*rsi + 24]
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
 	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB1_409
-	JMP  LBB1_474
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_456
+	JMP  LBB1_737
 
-LBB1_43:
+LBB1_44:
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_93
+	JLE  LBB1_90
 	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_122
+	JE   LBB1_135
 	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_125
+	JE   LBB1_138
 	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_3
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
+	JLE  LBB1_737
 	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_49
-	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_287
-	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_287
+	JB   LBB1_50
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_312
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_312
 
-LBB1_49:
-	WORD $0xf631 // xor    esi, esi
+LBB1_50:
+	WORD $0xc931 // xor    ecx, ecx
 
-LBB1_670:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_672
+LBB1_461:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_463
 
-LBB1_671:
-	LONG $0x0c100ff2; BYTE $0xf2   // movsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc8580ff2               // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB1_671
+LBB1_462:
+	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85c0ff2               // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_462
 
-LBB1_672:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB1_3
+LBB1_463:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_737
 
-LBB1_673:
-	LONG $0x0c100ff2; BYTE $0xf2               // movsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf00c             // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x4c100ff2; WORD $0x08f2             // movsd    xmm1, qword [rdx + 8*rsi + 8]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10f2             // movsd    xmm1, qword [rdx + 8*rsi + 16]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18f2             // movsd    xmm1, qword [rdx + 8*rsi + 24]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB1_673
-	JMP  LBB1_3
+LBB1_464:
+	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_464
+	JMP  LBB1_737
 
-LBB1_50:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_82
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_517
+LBB1_51:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB1_95
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_141
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_144
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x018a             // mov    al, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_54
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	JLE  LBB1_737
+	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_57
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
 	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_200
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	JBE  LBB1_315
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
 	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_200
+	JBE  LBB1_315
 
-LBB1_54:
-	WORD $0xf631 // xor    esi, esi
+LBB1_57:
+	WORD $0xc931 // xor    ecx, ecx
 
-LBB1_334:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_336
+LBB1_469:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_471
 
-LBB1_335:
-	LONG $0x321cb60f // movzx    ebx, byte [rdx + rsi]
-	WORD $0xc328     // sub    bl, al
-	LONG $0x301c8841 // mov    byte [r8 + rsi], bl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc18348 // add    rcx, -1
-	JNE  LBB1_335
+LBB1_470:
+	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc8580ff2               // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_470
 
-LBB1_336:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB1_517
+LBB1_471:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_737
 
-LBB1_337:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_337
-	JMP  LBB1_517
+LBB1_472:
+	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_472
+	JMP  LBB1_737
 
-LBB1_55:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_85
+LBB1_58:
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_517
+	JLE  LBB1_100
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB1_147
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB1_150
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	JLE  LBB1_737
+	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_59
-	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	JB   LBB1_64
+	LONG $0xc20c8d48         // lea    rcx, [rdx + 8*rax]
 	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_203
-	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	JBE  LBB1_318
+	LONG $0xc00c8d49         // lea    rcx, [r8 + 8*rax]
 	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_203
+	JBE  LBB1_318
 
-LBB1_59:
-	WORD $0xf631 // xor    esi, esi
+LBB1_64:
+	WORD $0xc931 // xor    ecx, ecx
 
-LBB1_342:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_344
-
-LBB1_343:
-	LONG $0xf21c8b48         // mov    rbx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc3 // sub    rbx, rax
-	LONG $0xf01c8949         // mov    qword [r8 + 8*rsi], rbx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc18348         // add    rcx, -1
-	JNE  LBB1_343
+LBB1_477:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_479
 
-LBB1_344:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB1_517
+LBB1_478:
+	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85c0ff2               // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_478
 
-LBB1_345:
-	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
-	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
-	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
-	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
-	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_345
-	JMP  LBB1_517
+LBB1_479:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_737
+
+LBB1_480:
+	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
+	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_480
+	JMP  LBB1_737
 
-LBB1_60:
+LBB1_65:
 	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_110
+	JE   LBB1_153
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_474
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8a44; BYTE $0x31 // mov    r14b, byte [rcx]
+	JLE  LBB1_737
+	WORD $0x018a             // mov    al, byte [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_64
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_260
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_260
+	JB   LBB1_69
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_321
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_321
 
-LBB1_64:
+LBB1_69:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_414:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_416
-
-LBB1_415:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0044; BYTE $0xf0 // add    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_415
+LBB1_485:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_487
 
-LBB1_416:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_474
+LBB1_486:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100     // add    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_486
 
-LBB1_417:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+LBB1_487:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_488:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_417
-	JMP  LBB1_474
+	JNE  LBB1_488
+	JMP  LBB1_737
 
-LBB1_65:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_113
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_474
+LBB1_70:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB1_156
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
+	JLE  LBB1_737
+	WORD $0x018a             // mov    al, byte [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_69
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_263
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_263
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_74
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_324
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_324
 
-LBB1_69:
+LBB1_74:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_422:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_424
+LBB1_493:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_495
 
-LBB1_423:
-	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0 // add    rax, r14
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_423
+LBB1_494:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128     // sub    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_494
 
-LBB1_424:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_474
+LBB1_495:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_425:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+LBB1_496:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_425
-	JMP  LBB1_474
+	JNE  LBB1_496
+	JMP  LBB1_737
 
-LBB1_70:
+LBB1_75:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB1_159
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	JLE  LBB1_737
+	WORD $0x018a             // mov    al, byte [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_72
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_79
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
 	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_206
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	JBE  LBB1_327
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
 	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_206
+	JBE  LBB1_327
 
-LBB1_72:
+LBB1_79:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_350:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_352
+LBB1_501:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_503
 
-LBB1_351:
-	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
-	WORD $0xc329                 // sub    ebx, eax
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_351
+LBB1_502:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100     // add    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_502
 
-LBB1_352:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB1_517
+LBB1_503:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_353:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_353
-	JMP  LBB1_517
+LBB1_504:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_504
+	JMP  LBB1_737
 
-LBB1_73:
+LBB1_80:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB1_162
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	JLE  LBB1_737
+	WORD $0x018a             // mov    al, byte [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_75
-	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_84
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
 	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_209
-	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	JBE  LBB1_330
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
 	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_209
+	JBE  LBB1_330
 
-LBB1_75:
+LBB1_84:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_358:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_360
+LBB1_509:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_511
 
-LBB1_359:
-	LONG $0x721cb70f             // movzx    ebx, word [rdx + 2*rsi]
-	WORD $0xc329                 // sub    ebx, eax
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc18348             // add    rcx, -1
-	JNE  LBB1_359
+LBB1_510:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128     // sub    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_510
 
-LBB1_360:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB1_517
+LBB1_511:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_361:
-	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
-	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
-	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
-	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
-	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_361
-	JMP  LBB1_517
+LBB1_512:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_512
+	JMP  LBB1_737
 
-LBB1_76:
+LBB1_85:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_165
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
+	JLE  LBB1_737
 	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_78
+	JB   LBB1_89
 	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_212
+	JBE  LBB1_333
 	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
 	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_212
+	JBE  LBB1_333
 
-LBB1_78:
+LBB1_89:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_366:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_368
-
-LBB1_367:
-	LONG $0xf21c8b48         // mov    rbx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc3 // sub    rbx, rax
-	LONG $0xf01c8949         // mov    qword [r8 + 8*rsi], rbx
+LBB1_517:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_519
+
+LBB1_518:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc18348         // add    rcx, -1
-	JNE  LBB1_367
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_518
 
-LBB1_368:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB1_517
+LBB1_519:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_369:
+LBB1_520:
 	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
 	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
 	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
 	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_369
-	JMP  LBB1_517
+	JNE  LBB1_520
+	JMP  LBB1_737
 
-LBB1_79:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_81
-	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
-	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_215
-	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
-	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_215
-
-LBB1_81:
-	WORD $0xc931 // xor    ecx, ecx
-
-LBB1_374:
-	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
-	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB1_376
-
-LBB1_375:
-	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85c0ff3               // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x01c18348               // add    rcx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB1_375
-
-LBB1_376:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB1_517
-
-LBB1_377:
-	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
-	LONG $0x04c18348                           // add    rcx, 4
-	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
-	JNE  LBB1_377
-	JMP  LBB1_517
-
-LBB1_82:
+LBB1_90:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_168
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x018a             // mov    al, byte [rcx]
+	JLE  LBB1_737
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_84
-	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_94
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_218
-	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	JBE  LBB1_336
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
 	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_218
+	JBE  LBB1_336
 
-LBB1_84:
+LBB1_94:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_382:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_384
+LBB1_525:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_527
 
-LBB1_383:
-	LONG $0x321cb60f // movzx    ebx, byte [rdx + rsi]
-	WORD $0xc328     // sub    bl, al
-	LONG $0x301c8841 // mov    byte [r8 + rsi], bl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc18348 // add    rcx, -1
-	JNE  LBB1_383
+LBB1_526:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_526
 
-LBB1_384:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB1_517
+LBB1_527:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_385:
-	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
-	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
-	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
-	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
-	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+LBB1_528:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_385
-	JMP  LBB1_517
+	JNE  LBB1_528
+	JMP  LBB1_737
 
-LBB1_85:
+LBB1_95:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB1_171
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x018b             // mov    eax, dword [rcx]
+	JLE  LBB1_737
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_87
-	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_99
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
-	JBE  LBB1_221
-	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	JBE  LBB1_339
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
 	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
-	JBE  LBB1_221
-
-LBB1_87:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_390:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd1 // mov    rcx, r10
-	LONG $0x03e18348         // and    rcx, 3
-	JE   LBB1_392
-
-LBB1_391:
-	WORD $0x1c8b; BYTE $0xb2 // mov    ebx, dword [rdx + 4*rsi]
-	WORD $0xc329             // sub    ebx, eax
-	LONG $0xb01c8941         // mov    dword [r8 + 4*rsi], ebx
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc18348         // add    rcx, -1
-	JNE  LBB1_391
-
-LBB1_392:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB1_517
-
-LBB1_393:
-	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
-	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
-	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
-	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
-	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_393
-	JMP  LBB1_517
-
-LBB1_88:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_128
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_3
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8a44; BYTE $0x31 // mov    r14b, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_92
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_290
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_290
+	JBE  LBB1_339
 
-LBB1_92:
+LBB1_99:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_678:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_680
+LBB1_533:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_535
 
-LBB1_679:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0044; BYTE $0xf0 // add    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
+LBB1_534:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_679
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_534
 
-LBB1_680:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_3
+LBB1_535:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_681:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+LBB1_536:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_681
-	JMP  LBB1_3
+	JNE  LBB1_536
+	JMP  LBB1_737
 
-LBB1_93:
+LBB1_100:
 	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_131
+	JE   LBB1_174
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_3
+	JNE  LBB1_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
+	JLE  LBB1_737
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_97
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_293
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_293
+	JB   LBB1_104
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_342
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_342
 
-LBB1_97:
+LBB1_104:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_686:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_688
+LBB1_541:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_543
 
-LBB1_687:
-	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0 // add    rax, r14
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+LBB1_542:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_687
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_542
 
-LBB1_688:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_3
+LBB1_543:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_689:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+LBB1_544:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_689
-	JMP  LBB1_3
+	JNE  LBB1_544
+	JMP  LBB1_737
 
-LBB1_98:
+LBB1_105:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	JLE  LBB1_737
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_100
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_266
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_266
+	JB   LBB1_107
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_345
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_345
 
-LBB1_100:
+LBB1_107:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_430:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_432
+LBB1_549:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_551
 
-LBB1_431:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf0014466             // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+LBB1_550:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1     // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
 	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB1_431
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_550
 
-LBB1_432:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_474
+LBB1_551:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_433:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+LBB1_552:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_433
-	JMP  LBB1_474
+	JNE  LBB1_552
+	JMP  LBB1_737
 
-LBB1_101:
+LBB1_108:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	JLE  LBB1_737
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_103
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_269
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_269
+	JB   LBB1_110
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_348
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_348
 
-LBB1_103:
+LBB1_110:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_438:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_440
+LBB1_557:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_559
 
-LBB1_439:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf0014466             // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+LBB1_558:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1     // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
 	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB1_439
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_558
 
-LBB1_440:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_474
+LBB1_559:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_441:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_441
-	JMP  LBB1_474
+LBB1_560:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_560
+	JMP  LBB1_737
 
-LBB1_104:
+LBB1_111:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
+	JLE  LBB1_737
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_106
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_272
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_272
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_113
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_351
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_351
 
-LBB1_106:
+LBB1_113:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_446:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_448
+LBB1_565:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_567
 
-LBB1_447:
-	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0 // add    rax, r14
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_447
+LBB1_566:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_566
 
-LBB1_448:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_474
+LBB1_567:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_449:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_449
-	JMP  LBB1_474
+LBB1_568:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_568
+	JMP  LBB1_737
 
-LBB1_107:
+LBB1_114:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_109
-	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_275
-	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_275
+	JLE  LBB1_737
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_116
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_354
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_354
 
-LBB1_109:
+LBB1_116:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_454:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_456
+LBB1_573:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_575
 
-LBB1_455:
-	LONG $0x0c100ff3; BYTE $0xb2   // movss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc8580ff3               // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB1_455
+LBB1_574:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_574
 
-LBB1_456:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB1_474
+LBB1_575:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_457:
-	LONG $0x0c100ff3; BYTE $0xb2               // movss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb00c             // movss    dword [r8 + 4*rsi], xmm1
-	LONG $0x4c100ff3; WORD $0x04b2             // movss    xmm1, dword [rdx + 4*rsi + 4]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x08b2             // movss    xmm1, dword [rdx + 4*rsi + 8]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0cb2             // movss    xmm1, dword [rdx + 4*rsi + 12]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB1_457
-	JMP  LBB1_474
+LBB1_576:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_576
+	JMP  LBB1_737
 
-LBB1_110:
+LBB1_117:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8a44; BYTE $0x31 // mov    r14b, byte [rcx]
+	JLE  LBB1_737
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_112
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_278
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_278
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_119
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_357
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_357
 
-LBB1_112:
+LBB1_119:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_462:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_464
+LBB1_581:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_583
 
-LBB1_463:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0044; BYTE $0xf0 // add    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_463
+LBB1_582:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1     // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_582
 
-LBB1_464:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_474
+LBB1_583:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_465:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_465
-	JMP  LBB1_474
+LBB1_584:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_584
+	JMP  LBB1_737
 
-LBB1_113:
+LBB1_120:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
+	JLE  LBB1_737
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_115
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_281
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_281
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB1_122
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_360
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_360
 
-LBB1_115:
+LBB1_122:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_470:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_472
+LBB1_589:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_591
 
-LBB1_471:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_471
+LBB1_590:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1     // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_590
 
-LBB1_472:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_474
+LBB1_591:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_473:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_473
-	JMP  LBB1_474
+LBB1_592:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB1_592
+	JMP  LBB1_737
 
-LBB1_116:
+LBB1_123:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	JLE  LBB1_737
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_118
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_296
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_296
+	JB   LBB1_125
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_363
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_363
 
-LBB1_118:
+LBB1_125:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_694:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_696
+LBB1_597:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_599
 
-LBB1_695:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf0014466             // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+LBB1_598:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
 	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB1_695
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_598
 
-LBB1_696:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_3
+LBB1_599:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_697:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+LBB1_600:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_697
-	JMP  LBB1_3
+	JNE  LBB1_600
+	JMP  LBB1_737
 
-LBB1_119:
+LBB1_126:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x31b70f44         // movzx    r14d, word [rcx]
+	JLE  LBB1_737
+	WORD $0xb70f; BYTE $0x01 // movzx    eax, word [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_121
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_299
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_299
+	JB   LBB1_128
+	LONG $0x520c8d4a         // lea    rcx, [rdx + 2*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_366
+	LONG $0x500c8d4b         // lea    rcx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_366
 
-LBB1_121:
+LBB1_128:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_702:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_704
+LBB1_605:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_607
 
-LBB1_703:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf0014466             // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
+LBB1_606:
+	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
 	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB1_703
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB1_606
 
-LBB1_704:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_3
+LBB1_607:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_705:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
+LBB1_608:
+	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
+	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
+	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
+	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
+	WORD $0xc129                   // sub    ecx, eax
+	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_705
-	JMP  LBB1_3
+	JNE  LBB1_608
+	JMP  LBB1_737
 
-LBB1_122:
+LBB1_129:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
+	JLE  LBB1_737
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_124
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_302
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_302
+	JB   LBB1_131
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_369
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_369
 
-LBB1_124:
+LBB1_131:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_710:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_712
+LBB1_613:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_615
 
-LBB1_711:
-	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0 // add    rax, r14
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+LBB1_614:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_711
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_614
 
-LBB1_712:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_3
+LBB1_615:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_713:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+LBB1_616:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_713
-	JMP  LBB1_3
+	JNE  LBB1_616
+	JMP  LBB1_737
 
-LBB1_125:
+LBB1_132:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
+	JLE  LBB1_737
 	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_127
-	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_305
-	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_305
+	JB   LBB1_134
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_372
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_372
 
-LBB1_127:
-	WORD $0xf631 // xor    esi, esi
+LBB1_134:
+	WORD $0xc931 // xor    ecx, ecx
 
-LBB1_718:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_720
+LBB1_621:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_623
 
-LBB1_719:
-	LONG $0x0c100ff3; BYTE $0xb2   // movss    xmm1, dword [rdx + 4*rsi]
+LBB1_622:
+	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
 	LONG $0xc8580ff3               // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB1_719
+	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_622
 
-LBB1_720:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB1_3
+LBB1_623:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_737
 
-LBB1_721:
-	LONG $0x0c100ff3; BYTE $0xb2               // movss    xmm1, dword [rdx + 4*rsi]
+LBB1_624:
+	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
 	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb00c             // movss    dword [r8 + 4*rsi], xmm1
-	LONG $0x4c100ff3; WORD $0x04b2             // movss    xmm1, dword [rdx + 4*rsi + 4]
+	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
 	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x08b2             // movss    xmm1, dword [rdx + 4*rsi + 8]
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
 	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0cb2             // movss    xmm1, dword [rdx + 4*rsi + 12]
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
 	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB1_721
-	JMP  LBB1_3
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_624
+	JMP  LBB1_737
 
-LBB1_128:
+LBB1_135:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8a44; BYTE $0x31 // mov    r14b, byte [rcx]
+	JLE  LBB1_737
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_130
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_308
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_308
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_137
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_375
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_375
 
-LBB1_130:
+LBB1_137:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_726:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_728
+LBB1_629:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_631
 
-LBB1_727:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x0044; BYTE $0xf0 // add    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
+LBB1_630:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_727
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_630
 
-LBB1_728:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_3
+LBB1_631:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_729:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+LBB1_632:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_729
-	JMP  LBB1_3
+	JNE  LBB1_632
+	JMP  LBB1_737
 
-LBB1_131:
+LBB1_138:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	JLE  LBB1_737
+	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_133
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_311
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_311
+	JB   LBB1_140
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_378
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_378
+
+LBB1_140:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_637:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_639
+
+LBB1_638:
+	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85c0ff3               // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_638
+
+LBB1_639:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_737
+
+LBB1_640:
+	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_640
+	JMP  LBB1_737
+
+LBB1_141:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_143
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_381
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_381
 
-LBB1_133:
+LBB1_143:
 	WORD $0xf631 // xor    esi, esi
 
-LBB1_734:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_736
+LBB1_645:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_647
 
-LBB1_735:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+LBB1_646:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_735
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_646
 
-LBB1_736:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_3
+LBB1_647:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
 
-LBB1_737:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+LBB1_648:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_737
-	JMP  LBB1_3
+	JNE  LBB1_648
+	JMP  LBB1_737
 
-LBB1_194:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_314
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_196:
-	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x209a             // movdqu    xmm1, oword [rdx + 4*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x309a             // movdqu    xmm2, oword [rdx + 4*rbx + 48]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
-	LONG $0x10c38348                           // add    rbx, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_196
-	JMP  LBB1_315
-
-LBB1_197:
-	WORD $0xc189             // mov    ecx, eax
-	WORD $0xe183; BYTE $0xfc // and    ecx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-	LONG $0x02ebc148         // shr    rbx, 2
-	LONG $0x01c38348         // add    rbx, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_322
-	WORD $0x8948; BYTE $0xde // mov    rsi, rbx
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
+LBB1_144:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_146
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_384
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_384
 
-LBB1_199:
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+LBB1_146:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_653:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_655
+
+LBB1_654:
+	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc8580ff3               // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_654
+
+LBB1_655:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_737
+
+LBB1_656:
+	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_656
+	JMP  LBB1_737
+
+LBB1_147:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x8b48; BYTE $0x01 // mov    rax, qword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB1_149
+	LONG $0xd20c8d4a         // lea    rcx, [rdx + 8*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_387
+	LONG $0xd00c8d4b         // lea    rcx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_387
+
+LBB1_149:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_661:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_663
+
+LBB1_662:
+	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_662
+
+LBB1_663:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_664:
+	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
+	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
+	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
+	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_664
+	JMP  LBB1_737
+
+LBB1_150:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_152
+	LONG $0x820c8d48         // lea    rcx, [rdx + 4*rax]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_390
+	LONG $0x800c8d49         // lea    rcx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_390
+
+LBB1_152:
+	WORD $0xc931 // xor    ecx, ecx
+
+LBB1_669:
+	WORD $0x8948; BYTE $0xce // mov    rsi, rcx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_671
+
+LBB1_670:
+	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85c0ff3               // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x01c18348               // add    rcx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB1_670
+
+LBB1_671:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB1_737
+
+LBB1_672:
+	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
+	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
+	LONG $0x04c18348                           // add    rcx, 4
+	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
+	JNE  LBB1_672
+	JMP  LBB1_737
+
+LBB1_153:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018a             // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_155
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_393
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_393
+
+LBB1_155:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_677:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_679
+
+LBB1_678:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100     // add    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_678
+
+LBB1_679:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_680:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_680
+	JMP  LBB1_737
+
+LBB1_156:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018a             // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_158
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_396
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_396
+
+LBB1_158:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_685:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_687
+
+LBB1_686:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128     // sub    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_686
+
+LBB1_687:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_688:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_688
+	JMP  LBB1_737
+
+LBB1_159:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018a             // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_161
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_399
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_399
+
+LBB1_161:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_693:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_695
+
+LBB1_694:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100     // add    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_694
+
+LBB1_695:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_696:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc100                 // add    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_696
+	JMP  LBB1_737
+
+LBB1_162:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018a             // mov    al, byte [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB1_164
+	LONG $0x120c8d4a         // lea    rcx, [rdx + r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_402
+	LONG $0x100c8d4b         // lea    rcx, [r8 + r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_402
+
+LBB1_164:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_701:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_703
+
+LBB1_702:
+	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128     // sub    cl, al
+	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB1_702
+
+LBB1_703:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_704:
+	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
+	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
+	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
+	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
+	WORD $0xc128                 // sub    cl, al
+	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_704
+	JMP  LBB1_737
+
+LBB1_165:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_167
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_405
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_405
+
+LBB1_167:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_709:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_711
+
+LBB1_710:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101             // add    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_710
+
+LBB1_711:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_712:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_712
+	JMP  LBB1_737
+
+LBB1_168:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_170
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_408
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_408
+
+LBB1_170:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_717:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_719
+
+LBB1_718:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129             // sub    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_718
+
+LBB1_719:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_720:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_720
+	JMP  LBB1_737
+
+LBB1_171:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_173
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_411
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_411
+
+LBB1_173:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_725:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_727
+
+LBB1_726:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101             // add    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_726
+
+LBB1_727:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_728:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc101                 // add    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_728
+	JMP  LBB1_737
+
+LBB1_174:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB1_737
+	WORD $0x018b             // mov    eax, dword [rcx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB1_176
+	LONG $0x920c8d4a         // lea    rcx, [rdx + 4*r10]
+	WORD $0x394c; BYTE $0xc1 // cmp    rcx, r8
+	JBE  LBB1_414
+	LONG $0x900c8d4b         // lea    rcx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xd1 // cmp    rcx, rdx
+	JBE  LBB1_414
+
+LBB1_176:
+	WORD $0xf631 // xor    esi, esi
+
+LBB1_733:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB1_735
+
+LBB1_734:
+	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129             // sub    ecx, eax
+	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB1_734
+
+LBB1_735:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB1_737
+
+LBB1_736:
+	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
+	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
+	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
+	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
+	WORD $0xc129                 // sub    ecx, eax
+	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB1_736
+	JMP  LBB1_737
+
+LBB1_297:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_417
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_299:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_299
+	JMP  LBB1_418
+
+LBB1_300:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_425
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_302:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_302
+	JMP  LBB1_426
+
+LBB1_303:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_433
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_305:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_305
+	JMP  LBB1_434
+
+LBB1_306:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_441
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_308:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_308
+	JMP  LBB1_442
+
+LBB1_309:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xfc // and    ecx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_449
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_311:
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_311
+	JMP  LBB1_450
+
+LBB1_312:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xfc // and    ecx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_457
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_314:
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_314
+	JMP  LBB1_458
+
+LBB1_315:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xfc // and    ecx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_465
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_317:
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB1_317
+	JMP  LBB1_466
+
+LBB1_318:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xfc // and    ecx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc718d48         // lea    rsi, [rcx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_473
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_320:
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
 	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
 	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
 	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
@@ -6663,46 +7432,188 @@ LBB1_199:
 	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
 	LONG $0x08c78348                           // add    rdi, 8
 	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB1_199
-	JMP  LBB1_323
+	JNE  LBB1_320
+	JMP  LBB1_474
+
+LBB1_321:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
+	LONG $0xc16e0f66             // movd    xmm0, ecx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_481
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_323:
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_323
+	JMP  LBB1_482
+
+LBB1_324:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
+	LONG $0xc16e0f66             // movd    xmm0, ecx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_489
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_326:
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_326
+	JMP  LBB1_490
+
+LBB1_327:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
+	LONG $0xc16e0f66             // movd    xmm0, ecx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_497
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_329:
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_329
+	JMP  LBB1_498
 
-LBB1_200:
+LBB1_330:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
 	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
 	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
 	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
 	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
 	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
 	LONG $0x05e9c149             // shr    r9, 5
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_330
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_202:
-	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
-	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+	JE   LBB1_505
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_332:
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
 	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
 	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x201a             // movdqu    xmm1, oword [rdx + rbx + 32]
-	LONG $0x546f0ff3; WORD $0x301a             // movdqu    xmm2, oword [rdx + rbx + 48]
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
 	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
 	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_202
-	JMP  LBB1_331
-
-LBB1_203:
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_332
+	JMP  LBB1_506
+
+LBB1_333:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_513
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_335:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_335
+	JMP  LBB1_514
+
+LBB1_336:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xfc     // and    esi, -4
 	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
@@ -6712,31 +7623,309 @@ LBB1_203:
 	LONG $0x02e9c149             // shr    r9, 2
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_338
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_205:
-	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	JE   LBB1_521
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_338:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_338
+	JMP  LBB1_522
+
+LBB1_339:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_529
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_341:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_341
+	JMP  LBB1_530
+
+LBB1_342:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_537
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_344:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
 	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
 	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20da             // movdqu    xmm1, oword [rdx + 8*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x30da             // movdqu    xmm2, oword [rdx + 8*rbx + 48]
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
 	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
 	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_205
-	JMP  LBB1_339
-
-LBB1_206:
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_344
+	JMP  LBB1_538
+
+LBB1_345:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_545
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_347:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_347
+	JMP  LBB1_546
+
+LBB1_348:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_553
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_350:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_350
+	JMP  LBB1_554
+
+LBB1_351:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_561
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_353:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_353
+	JMP  LBB1_562
+
+LBB1_354:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_569
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_356:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_356
+	JMP  LBB1_570
+
+LBB1_357:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_577
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_359:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_359
+	JMP  LBB1_578
+
+LBB1_360:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf04e8d48             // lea    rcx, [rsi - 16]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_585
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_362:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_362
+	JMP  LBB1_586
+
+LBB1_363:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0     // and    esi, -16
 	LONG $0xc06e0f66             // movd    xmm0, eax
@@ -6747,31 +7936,31 @@ LBB1_206:
 	LONG $0x04e9c149             // shr    r9, 4
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_346
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_208:
-	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	JE   LBB1_593
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_365:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
 	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
 	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x205a             // movdqu    xmm1, oword [rdx + 2*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x305a             // movdqu    xmm2, oword [rdx + 2*rbx + 48]
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
 	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
 	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_208
-	JMP  LBB1_347
-
-LBB1_209:
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_365
+	JMP  LBB1_594
+
+LBB1_366:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0     // and    esi, -16
 	LONG $0xc06e0f66             // movd    xmm0, eax
@@ -6782,31 +7971,99 @@ LBB1_209:
 	LONG $0x04e9c149             // shr    r9, 4
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_354
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_211:
-	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
+	JE   LBB1_601
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_368:
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
 	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
 	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x205a             // movdqu    xmm1, oword [rdx + 2*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x305a             // movdqu    xmm2, oword [rdx + 2*rbx + 48]
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
 	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
 	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_211
-	JMP  LBB1_355
-
-LBB1_212:
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_368
+	JMP  LBB1_602
+
+LBB1_369:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_609
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_371:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_371
+	JMP  LBB1_610
+
+LBB1_372:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_617
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
+
+LBB1_374:
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
+	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB1_374
+	JMP  LBB1_618
+
+LBB1_375:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xfc     // and    esi, -4
 	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
@@ -6816,47 +8073,47 @@ LBB1_212:
 	LONG $0x02e9c149             // shr    r9, 2
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_362
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_214:
-	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+	JE   LBB1_625
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_377:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
 	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
 	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20da             // movdqu    xmm1, oword [rdx + 8*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x30da             // movdqu    xmm2, oword [rdx + 8*rbx + 48]
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
 	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
 	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_214
-	JMP  LBB1_363
-
-LBB1_215:
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_377
+	JMP  LBB1_626
+
+LBB1_378:
 	WORD $0xc189             // mov    ecx, eax
 	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
 	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
 	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
 	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-	LONG $0x03ebc148         // shr    rbx, 3
-	LONG $0x01c38348         // add    rbx, 1
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB1_370
-	WORD $0x8948; BYTE $0xde // mov    rsi, rbx
+	JE   LBB1_633
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
 	LONG $0xfee68348         // and    rsi, -2
 	WORD $0xf748; BYTE $0xde // neg    rsi
 	WORD $0xff31             // xor    edi, edi
 
-LBB1_217:
+LBB1_380:
 	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
 	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
 	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
@@ -6871,3092 +8128,2517 @@ LBB1_217:
 	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
 	LONG $0x10c78348               // add    rdi, 16
 	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB1_217
-	JMP  LBB1_371
+	JNE  LBB1_380
+	JMP  LBB1_634
 
-LBB1_218:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
-	LONG $0xc16e0f66             // movd    xmm0, ecx
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
-	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_378
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_220:
-	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
-	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x201a             // movdqu    xmm1, oword [rdx + rbx + 32]
-	LONG $0x546f0ff3; WORD $0x301a             // movdqu    xmm2, oword [rdx + rbx + 48]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_220
-	JMP  LBB1_379
-
-LBB1_221:
+LBB1_381:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
 	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
-	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x02e9c149             // shr    r9, 2
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
-	JE   LBB1_386
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_223:
-	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x209a             // movdqu    xmm1, oword [rdx + 4*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x309a             // movdqu    xmm2, oword [rdx + 4*rbx + 48]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
-	LONG $0x10c38348                           // add    rbx, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB1_223
-	JMP  LBB1_387
-
-LBB1_254:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x03ebc149             // shr    r11, 3
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_394
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_256:
-	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x209a             // movdqu    xmm1, oword [rdx + 4*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x309a             // movdqu    xmm2, oword [rdx + 4*rbx + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
-	LONG $0x10c38348                           // add    rbx, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_256
-	JMP  LBB1_395
-
-LBB1_257:
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x02eac149         // shr    r10, 2
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB1_402
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xdb31             // xor    ebx, ebx
-
-LBB1_259:
-	LONG $0x14100f66; BYTE $0xda               // movupd    xmm2, oword [rdx + 8*rbx]
-	LONG $0x5c100f66; WORD $0x10da             // movupd    xmm3, oword [rdx + 8*rbx + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
-	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
-	LONG $0x54100f66; WORD $0x20da             // movupd    xmm2, oword [rdx + 8*rbx + 32]
-	LONG $0x5c100f66; WORD $0x30da             // movupd    xmm3, oword [rdx + 8*rbx + 48]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xd854; BYTE $0x20 // movupd    oword [r8 + 8*rbx + 32], xmm2
-	LONG $0x110f4166; WORD $0xd85c; BYTE $0x30 // movupd    oword [r8 + 8*rbx + 48], xmm3
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_259
-	JMP  LBB1_403
-
-LBB1_260:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc6b60f41             // movzx    eax, r14b
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_410
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_262:
-	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
-	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x201a             // movdqu    xmm1, oword [rdx + rbx + 32]
-	LONG $0x546f0ff3; WORD $0x301a             // movdqu    xmm2, oword [rdx + rbx + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_262
-	JMP  LBB1_411
-
-LBB1_263:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x02ebc149             // shr    r11, 2
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_418
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_265:
-	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20da             // movdqu    xmm1, oword [rdx + 8*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x30da             // movdqu    xmm2, oword [rdx + 8*rbx + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_265
-	JMP  LBB1_419
-
-LBB1_266:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_426
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_268:
-	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x205a             // movdqu    xmm1, oword [rdx + 2*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x305a             // movdqu    xmm2, oword [rdx + 2*rbx + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_268
-	JMP  LBB1_427
-
-LBB1_269:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_434
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_271:
-	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x205a             // movdqu    xmm1, oword [rdx + 2*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x305a             // movdqu    xmm2, oword [rdx + 2*rbx + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_271
-	JMP  LBB1_435
-
-LBB1_272:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x02ebc149             // shr    r11, 2
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_442
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+	JE   LBB1_641
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB1_274:
-	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
+LBB1_383:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
 	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
 	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20da             // movdqu    xmm1, oword [rdx + 8*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x30da             // movdqu    xmm2, oword [rdx + 8*rbx + 48]
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
 	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
 	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_274
-	JMP  LBB1_443
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_383
+	JMP  LBB1_642
 
-LBB1_275:
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
+LBB1_384:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
 	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
 	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x03eac149         // shr    r10, 3
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB1_450
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xdb31             // xor    ebx, ebx
+	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_649
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
 
-LBB1_277:
-	LONG $0x9a14100f               // movups    xmm2, oword [rdx + 4*rbx]
-	LONG $0x9a5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rbx + 16]
+LBB1_386:
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
 	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
 	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
-	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
-	LONG $0x9a54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rbx + 32]
-	LONG $0x9a5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rbx + 48]
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
+	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
 	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
 	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x2098 // movups    oword [r8 + 4*rbx + 32], xmm2
-	LONG $0x5c110f41; WORD $0x3098 // movups    oword [r8 + 4*rbx + 48], xmm3
-	LONG $0x10c38348               // add    rbx, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB1_277
-	JMP  LBB1_451
-
-LBB1_278:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc6b60f41             // movzx    eax, r14b
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_458
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_280:
-	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
-	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x201a             // movdqu    xmm1, oword [rdx + rbx + 32]
-	LONG $0x546f0ff3; WORD $0x301a             // movdqu    xmm2, oword [rdx + rbx + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_280
-	JMP  LBB1_459
-
-LBB1_281:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x03ebc149             // shr    r11, 3
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_466
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_283:
-	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x209a             // movdqu    xmm1, oword [rdx + 4*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x309a             // movdqu    xmm2, oword [rdx + 4*rbx + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
-	LONG $0x10c38348                           // add    rbx, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_283
-	JMP  LBB1_467
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB1_386
+	JMP  LBB1_650
 
-LBB1_284:
+LBB1_387:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x03ebc149             // shr    r11, 3
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_658
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc4e8d48             // lea    rcx, [rsi - 4]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_657
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB1_286:
-	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x209a             // movdqu    xmm1, oword [rdx + 4*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x309a             // movdqu    xmm2, oword [rdx + 4*rbx + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
-	LONG $0x10c38348                           // add    rbx, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_286
-	JMP  LBB1_659
+LBB1_389:
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_389
+	JMP  LBB1_658
 
-LBB1_287:
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x02eac149         // shr    r10, 2
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB1_666
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xdb31             // xor    ebx, ebx
+LBB1_390:
+	WORD $0xc189             // mov    ecx, eax
+	WORD $0xe183; BYTE $0xf8 // and    ecx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8718d48         // lea    rsi, [rcx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB1_665
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
 
-LBB1_289:
-	LONG $0x14100f66; BYTE $0xda               // movupd    xmm2, oword [rdx + 8*rbx]
-	LONG $0x5c100f66; WORD $0x10da             // movupd    xmm3, oword [rdx + 8*rbx + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
-	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
-	LONG $0x54100f66; WORD $0x20da             // movupd    xmm2, oword [rdx + 8*rbx + 32]
-	LONG $0x5c100f66; WORD $0x30da             // movupd    xmm3, oword [rdx + 8*rbx + 48]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xd854; BYTE $0x20 // movupd    oword [r8 + 8*rbx + 32], xmm2
-	LONG $0x110f4166; WORD $0xd85c; BYTE $0x30 // movupd    oword [r8 + 8*rbx + 48], xmm3
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_289
-	JMP  LBB1_667
+LBB1_392:
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
+	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB1_392
+	JMP  LBB1_666
 
-LBB1_290:
+LBB1_393:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc6b60f41             // movzx    eax, r14b
-	LONG $0xc06e0f66             // movd    xmm0, eax
+	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
+	LONG $0xc16e0f66             // movd    xmm0, ecx
 	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
 	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_674
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_673
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB1_292:
-	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
-	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+LBB1_395:
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
 	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
 	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x201a             // movdqu    xmm1, oword [rdx + rbx + 32]
-	LONG $0x546f0ff3; WORD $0x301a             // movdqu    xmm2, oword [rdx + rbx + 48]
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
 	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
 	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_292
-	JMP  LBB1_675
-
-LBB1_293:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x02ebc149             // shr    r11, 2
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_682
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_295:
-	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20da             // movdqu    xmm1, oword [rdx + 8*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x30da             // movdqu    xmm2, oword [rdx + 8*rbx + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_295
-	JMP  LBB1_683
-
-LBB1_296:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_690
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_298:
-	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x205a             // movdqu    xmm1, oword [rdx + 2*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x305a             // movdqu    xmm2, oword [rdx + 2*rbx + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_298
-	JMP  LBB1_691
-
-LBB1_299:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_698
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_301:
-	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x205a             // movdqu    xmm1, oword [rdx + 2*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x305a             // movdqu    xmm2, oword [rdx + 2*rbx + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_301
-	JMP  LBB1_699
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_395
+	JMP  LBB1_674
 
-LBB1_302:
+LBB1_396:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x02ebc149             // shr    r11, 2
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_706
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB1_304:
-	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20da             // movdqu    xmm1, oword [rdx + 8*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x30da             // movdqu    xmm2, oword [rdx + 8*rbx + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_304
-	JMP  LBB1_707
-
-LBB1_305:
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x03eac149         // shr    r10, 3
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB1_714
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xdb31             // xor    ebx, ebx
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
+	LONG $0xc16e0f66             // movd    xmm0, ecx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_681
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB1_307:
-	LONG $0x9a14100f               // movups    xmm2, oword [rdx + 4*rbx]
-	LONG $0x9a5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rbx + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
-	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
-	LONG $0x9a54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rbx + 32]
-	LONG $0x9a5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rbx + 48]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x2098 // movups    oword [r8 + 4*rbx + 32], xmm2
-	LONG $0x5c110f41; WORD $0x3098 // movups    oword [r8 + 4*rbx + 48], xmm3
-	LONG $0x10c38348               // add    rbx, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB1_307
-	JMP  LBB1_715
+LBB1_398:
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_398
+	JMP  LBB1_682
 
-LBB1_308:
+LBB1_399:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc6b60f41             // movzx    eax, r14b
-	LONG $0xc06e0f66             // movd    xmm0, eax
+	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
+	LONG $0xc16e0f66             // movd    xmm0, ecx
 	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
 	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_722
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_689
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB1_310:
-	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
-	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+LBB1_401:
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
 	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
 	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x201a             // movdqu    xmm1, oword [rdx + rbx + 32]
-	LONG $0x546f0ff3; WORD $0x301a             // movdqu    xmm2, oword [rdx + rbx + 48]
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
 	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
 	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_310
-	JMP  LBB1_723
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_401
+	JMP  LBB1_690
 
-LBB1_311:
+LBB1_402:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xc8     // movzx    ecx, al
+	LONG $0xc16e0f66             // movd    xmm0, ecx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe04e8d48             // lea    rcx, [rsi - 32]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_697
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB1_404:
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_404
+	JMP  LBB1_698
+
+LBB1_405:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc06e0f66             // movd    xmm0, eax
 	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x03ebc149             // shr    r11, 3
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_730
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_705
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB1_313:
-	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+LBB1_407:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
 	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
 	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x209a             // movdqu    xmm1, oword [rdx + 4*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x309a             // movdqu    xmm2, oword [rdx + 4*rbx + 48]
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
 	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
 	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
-	LONG $0x10c38348                           // add    rbx, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_313
-	JMP  LBB1_731
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_407
+	JMP  LBB1_706
 
-LBB1_314:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB1_408:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_713
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB1_315:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_317
-	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+LBB1_410:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
 	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
 	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
-
-LBB1_317:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_517
-	JMP  LBB1_318
-
-LBB1_322:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_323:
-	WORD $0xc3f6; BYTE $0x01                   // test    bl, 1
-	JE   LBB1_325
-	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
-
-LBB1_325:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_517
-	JMP  LBB1_326
-
-LBB1_330:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_331:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_333
-	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
-	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
-
-LBB1_333:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_517
-	JMP  LBB1_334
-
-LBB1_338:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_339:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_341
-	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
-
-LBB1_341:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_517
-	JMP  LBB1_342
-
-LBB1_346:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_347:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_349
-	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
-
-LBB1_349:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_517
-	JMP  LBB1_350
-
-LBB1_354:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_355:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_357
-	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
-
-LBB1_357:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_517
-	JMP  LBB1_358
-
-LBB1_362:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_363:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_365
-	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
-
-LBB1_365:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_517
-	JMP  LBB1_366
-
-LBB1_370:
-	WORD $0xff31 // xor    edi, edi
-
-LBB1_371:
-	WORD $0xc3f6; BYTE $0x01       // test    bl, 1
-	JE   LBB1_373
-	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
-	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
-
-LBB1_373:
-	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
-	JE   LBB1_517
-	JMP  LBB1_374
-
-LBB1_378:
-	WORD $0xdb31 // xor    ebx, ebx
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_410
+	JMP  LBB1_714
 
-LBB1_379:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_381
-	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
-	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+LBB1_411:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_721
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB1_381:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_517
-	JMP  LBB1_382
+LBB1_413:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_413
+	JMP  LBB1_722
 
-LBB1_386:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB1_414:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf84e8d48             // lea    rcx, [rsi - 8]
+	WORD $0x8949; BYTE $0xc9     // mov    r9, rcx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xc9     // test    rcx, rcx
+	JE   LBB1_729
+	WORD $0x894c; BYTE $0xc9     // mov    rcx, r9
+	LONG $0xfee18348             // and    rcx, -2
+	WORD $0xf748; BYTE $0xd9     // neg    rcx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB1_387:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_389
-	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+LBB1_416:
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
 	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
 	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
-
-LBB1_389:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_517
-	JMP  LBB1_390
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c18348                           // add    rcx, 2
+	JNE  LBB1_416
+	JMP  LBB1_730
 
-LBB1_394:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB1_417:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_395:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_397
-	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+LBB1_418:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_420
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
 	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
 	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
-
-LBB1_397:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_474
-	JMP  LBB1_398
-
-LBB1_402:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_403:
-	LONG $0x01c2f641                           // test    r10b, 1
-	JE   LBB1_405
-	LONG $0x14100f66; BYTE $0xda               // movupd    xmm2, oword [rdx + 8*rbx]
-	LONG $0x5c100f66; WORD $0x10da             // movupd    xmm3, oword [rdx + 8*rbx + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
-	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
-
-LBB1_405:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB1_474
-	JMP  LBB1_406
-
-LBB1_410:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_411:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_413
-	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
-	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 
-LBB1_413:
+LBB1_420:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_474
-	JMP  LBB1_414
-
-LBB1_418:
-	WORD $0xdb31 // xor    ebx, ebx
+	JE   LBB1_737
+	JMP  LBB1_421
 
-LBB1_419:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_421
-	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
-
-LBB1_421:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_474
-	JMP  LBB1_422
+LBB1_425:
+	WORD $0xff31 // xor    edi, edi
 
 LBB1_426:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB1_427:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_429
-	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_428
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 
-LBB1_429:
+LBB1_428:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_474
-	JMP  LBB1_430
+	JE   LBB1_737
+	JMP  LBB1_429
 
-LBB1_434:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB1_433:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_435:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_437
-	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+LBB1_434:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_436
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 
-LBB1_437:
+LBB1_436:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_474
-	JMP  LBB1_438
+	JE   LBB1_737
+	JMP  LBB1_437
 
-LBB1_442:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB1_441:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_443:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_445
-	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+LBB1_442:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_444
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 
-LBB1_445:
+LBB1_444:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_474
-	JMP  LBB1_446
+	JE   LBB1_737
+	JMP  LBB1_445
+
+LBB1_449:
+	WORD $0xff31 // xor    edi, edi
 
 LBB1_450:
-	WORD $0xdb31 // xor    ebx, ebx
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_452
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
 
-LBB1_451:
-	LONG $0x01c2f641               // test    r10b, 1
-	JE   LBB1_453
-	LONG $0x9a14100f               // movups    xmm2, oword [rdx + 4*rbx]
-	LONG $0x9a5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rbx + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
-	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
+LBB1_452:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_737
+	JMP  LBB1_453
 
-LBB1_453:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB1_474
-	JMP  LBB1_454
+LBB1_457:
+	WORD $0xff31 // xor    edi, edi
 
 LBB1_458:
-	WORD $0xdb31 // xor    ebx, ebx
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_460
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
 
-LBB1_459:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_461
-	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
-	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+LBB1_460:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_737
+	JMP  LBB1_461
 
-LBB1_461:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_474
-	JMP  LBB1_462
+LBB1_465:
+	WORD $0xff31 // xor    edi, edi
 
 LBB1_466:
-	WORD $0xdb31 // xor    ebx, ebx
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_468
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
 
-LBB1_467:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_469
-	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+LBB1_468:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_737
+	JMP  LBB1_469
 
-LBB1_469:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB1_470
+LBB1_473:
+	WORD $0xff31 // xor    edi, edi
 
 LBB1_474:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB1_482
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB1_489
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB1_499
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB1_502
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB1_13
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_481
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_548
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_548
-
-LBB1_481:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_582:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_584
-
-LBB1_583:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x2944; BYTE $0xf0 // sub    eax, r14d
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_583
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_476
+	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
 
-LBB1_584:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_13
+LBB1_476:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_737
+	JMP  LBB1_477
 
-LBB1_585:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_585
-	JMP  LBB1_13
+LBB1_481:
+	WORD $0xff31 // xor    edi, edi
 
 LBB1_482:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB1_494
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB1_505
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB1_508
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB1_13
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x01100ff2         // movsd    xmm0, qword [rcx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_488
-	LONG $0xda048d4a         // lea    rax, [rdx + 8*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_551
-	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_551
-
-LBB1_488:
-	WORD $0xf631 // xor    esi, esi
-
-LBB1_590:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_592
-
-LBB1_591:
-	LONG $0x0c100ff2; BYTE $0xf2   // movsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc85c0ff2               // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB1_591
-
-LBB1_592:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB1_13
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_484
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 
-LBB1_593:
-	LONG $0x0c100ff2; BYTE $0xf2               // movsd    xmm1, qword [rdx + 8*rsi]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf00c             // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x4c100ff2; WORD $0x08f2             // movsd    xmm1, qword [rdx + 8*rsi + 8]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10f2             // movsd    xmm1, qword [rdx + 8*rsi + 16]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18f2             // movsd    xmm1, qword [rdx + 8*rsi + 24]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB1_593
-	JMP  LBB1_13
+LBB1_484:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_485
 
 LBB1_489:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB1_511
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB1_13
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8a44; BYTE $0x31 // mov    r14b, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_493
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_554
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_554
-
-LBB1_493:
-	WORD $0xf631 // xor    esi, esi
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_598:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_600
+LBB1_490:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_492
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 
-LBB1_599:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x2844; BYTE $0xf0 // sub    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_599
+LBB1_492:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_493
 
-LBB1_600:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_13
+LBB1_497:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_601:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x2844; BYTE $0xf0     // sub    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	WORD $0x2844; BYTE $0xf0     // sub    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	WORD $0x2844; BYTE $0xf0     // sub    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0x2844; BYTE $0xf0     // sub    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_601
-	JMP  LBB1_13
+LBB1_498:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_500
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 
-LBB1_494:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB1_514
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB1_13
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_498
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_557
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_557
+LBB1_500:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_501
 
-LBB1_498:
-	WORD $0xf631 // xor    esi, esi
+LBB1_505:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_606:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_608
+LBB1_506:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_508
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 
-LBB1_607:
-	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x294c; BYTE $0xf0 // sub    rax, r14
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_607
+LBB1_508:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_509
 
-LBB1_608:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_13
+LBB1_513:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_609:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x294c; BYTE $0xf0     // sub    rax, r14
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x294c; BYTE $0xf0     // sub    rax, r14
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x294c; BYTE $0xf0     // sub    rax, r14
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x294c; BYTE $0xf0     // sub    rax, r14
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_609
-	JMP  LBB1_13
+LBB1_514:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_516
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 
-LBB1_499:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x31b70f44         // movzx    r14d, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_501
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_560
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_560
+LBB1_516:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_517
 
-LBB1_501:
-	WORD $0xf631 // xor    esi, esi
+LBB1_521:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_614:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_616
+LBB1_522:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_524
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 
-LBB1_615:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB1_615
+LBB1_524:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_525
 
-LBB1_616:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_13
+LBB1_529:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_617:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_617
-	JMP  LBB1_13
+LBB1_530:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_532
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 
-LBB1_502:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x31b70f44         // movzx    r14d, word [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB1_504
-	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_563
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_563
+LBB1_532:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_533
 
-LBB1_504:
-	WORD $0xf631 // xor    esi, esi
+LBB1_537:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_622:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_624
+LBB1_538:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_540
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 
-LBB1_623:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB1_623
+LBB1_540:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_541
 
-LBB1_624:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_13
+LBB1_545:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_625:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	WORD $0x2944; BYTE $0xf0       // sub    eax, r14d
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB1_625
-	JMP  LBB1_13
+LBB1_546:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_548
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
-LBB1_505:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b4c; BYTE $0x31 // mov    r14, qword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB1_507
-	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_566
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_566
+LBB1_548:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_549
 
-LBB1_507:
-	WORD $0xf631 // xor    esi, esi
+LBB1_553:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_630:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_632
+LBB1_554:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_556
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
-LBB1_631:
-	LONG $0xf2048b48         // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x294c; BYTE $0xf0 // sub    rax, r14
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_631
+LBB1_556:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_557
 
-LBB1_632:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_13
+LBB1_561:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_633:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	WORD $0x294c; BYTE $0xf0     // sub    rax, r14
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	WORD $0x294c; BYTE $0xf0     // sub    rax, r14
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	WORD $0x294c; BYTE $0xf0     // sub    rax, r14
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	WORD $0x294c; BYTE $0xf0     // sub    rax, r14
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_633
-	JMP  LBB1_13
+LBB1_562:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_564
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
-LBB1_508:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	LONG $0x01100ff3         // movss    xmm0, dword [rcx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_510
-	LONG $0x9a048d4a         // lea    rax, [rdx + 4*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_569
-	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_569
+LBB1_564:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_565
 
-LBB1_510:
-	WORD $0xf631 // xor    esi, esi
+LBB1_569:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_638:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_640
+LBB1_570:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_572
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
-LBB1_639:
-	LONG $0x0c100ff3; BYTE $0xb2   // movss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc85c0ff3               // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB1_639
+LBB1_572:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_573
 
-LBB1_640:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB1_13
+LBB1_577:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_641:
-	LONG $0x0c100ff3; BYTE $0xb2               // movss    xmm1, dword [rdx + 4*rsi]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb00c             // movss    dword [r8 + 4*rsi], xmm1
-	LONG $0x4c100ff3; WORD $0x04b2             // movss    xmm1, dword [rdx + 4*rsi + 4]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x08b2             // movss    xmm1, dword [rdx + 4*rsi + 8]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0cb2             // movss    xmm1, dword [rdx + 4*rsi + 12]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB1_641
-	JMP  LBB1_13
+LBB1_578:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_580
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
-LBB1_511:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8a44; BYTE $0x31 // mov    r14b, byte [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB1_513
-	LONG $0x12048d4a         // lea    rax, [rdx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_572
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_572
+LBB1_580:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_581
 
-LBB1_513:
-	WORD $0xf631 // xor    esi, esi
+LBB1_585:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_646:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_648
+LBB1_586:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_588
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
-LBB1_647:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x2844; BYTE $0xf0 // sub    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_647
+LBB1_588:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_589
 
-LBB1_648:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_13
+LBB1_593:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_649:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x2844; BYTE $0xf0     // sub    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	WORD $0x2844; BYTE $0xf0     // sub    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	WORD $0x2844; BYTE $0xf0     // sub    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	WORD $0x2844; BYTE $0xf0     // sub    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_649
-	JMP  LBB1_13
+LBB1_594:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_596
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
-LBB1_514:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB1_517
-	WORD $0x8b44; BYTE $0x31 // mov    r14d, dword [rcx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB1_516
-	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB1_575
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xd0 // cmp    rax, rdx
-	JBE  LBB1_575
+LBB1_596:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_597
 
-LBB1_516:
-	WORD $0xf631 // xor    esi, esi
+LBB1_601:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_654:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB1_656
+LBB1_602:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_604
+	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
-LBB1_655:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x2944; BYTE $0xf0 // sub    eax, r14d
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB1_655
+LBB1_604:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_605
 
-LBB1_656:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB1_13
+LBB1_609:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_657:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	WORD $0x2944; BYTE $0xf0     // sub    eax, r14d
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB1_657
-	JMP  LBB1_13
+LBB1_610:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_612
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 
-LBB1_517:
-	RET
+LBB1_612:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_613
 
-LBB1_548:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x03ebc149             // shr    r11, 3
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_578
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB1_617:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_550:
-	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x209a             // movdqu    xmm1, oword [rdx + 4*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x309a             // movdqu    xmm2, oword [rdx + 4*rbx + 48]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
-	LONG $0x10c38348                           // add    rbx, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_550
-	JMP  LBB1_579
+LBB1_618:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB1_620
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+
+LBB1_620:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_737
+	JMP  LBB1_621
+
+LBB1_625:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_626:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_628
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 
-LBB1_551:
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x02eac149         // shr    r10, 2
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB1_586
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xdb31             // xor    ebx, ebx
+LBB1_628:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_629
 
-LBB1_553:
-	LONG $0x14100f66; BYTE $0xda               // movupd    xmm2, oword [rdx + 8*rbx]
-	LONG $0x5c100f66; WORD $0x10da             // movupd    xmm3, oword [rdx + 8*rbx + 16]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
-	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
-	LONG $0x54100f66; WORD $0x20da             // movupd    xmm2, oword [rdx + 8*rbx + 32]
-	LONG $0x5c100f66; WORD $0x30da             // movupd    xmm3, oword [rdx + 8*rbx + 48]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xd854; BYTE $0x20 // movupd    oword [r8 + 8*rbx + 32], xmm2
-	LONG $0x110f4166; WORD $0xd85c; BYTE $0x30 // movupd    oword [r8 + 8*rbx + 48], xmm3
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_553
-	JMP  LBB1_587
+LBB1_633:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_554:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc6b60f41             // movzx    eax, r14b
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_594
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB1_634:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB1_636
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
 
-LBB1_556:
-	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
-	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x201a             // movdqu    xmm1, oword [rdx + rbx + 32]
-	LONG $0x546f0ff3; WORD $0x301a             // movdqu    xmm2, oword [rdx + rbx + 48]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_556
-	JMP  LBB1_595
+LBB1_636:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_737
+	JMP  LBB1_637
 
-LBB1_557:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x02ebc149             // shr    r11, 2
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_602
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB1_641:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_559:
-	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20da             // movdqu    xmm1, oword [rdx + 8*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x30da             // movdqu    xmm2, oword [rdx + 8*rbx + 48]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_559
-	JMP  LBB1_603
+LBB1_642:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_644
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 
-LBB1_560:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_610
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB1_644:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_645
 
-LBB1_562:
-	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x205a             // movdqu    xmm1, oword [rdx + 2*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x305a             // movdqu    xmm2, oword [rdx + 2*rbx + 48]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_562
-	JMP  LBB1_611
+LBB1_649:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_563:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_618
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB1_650:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB1_652
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
 
-LBB1_565:
-	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x205a             // movdqu    xmm1, oword [rdx + 2*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x305a             // movdqu    xmm2, oword [rdx + 2*rbx + 48]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_565
-	JMP  LBB1_619
+LBB1_652:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_737
+	JMP  LBB1_653
 
-LBB1_566:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x02ebc149             // shr    r11, 2
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_626
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB1_657:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_568:
-	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20da             // movdqu    xmm1, oword [rdx + 8*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x30da             // movdqu    xmm2, oword [rdx + 8*rbx + 48]
+LBB1_658:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_660
+	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
 	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
 	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_568
-	JMP  LBB1_627
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 
-LBB1_569:
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x03eac149         // shr    r10, 3
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB1_634
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xdb31             // xor    ebx, ebx
+LBB1_660:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_661
 
-LBB1_571:
-	LONG $0x9a14100f               // movups    xmm2, oword [rdx + 4*rbx]
-	LONG $0x9a5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rbx + 16]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
-	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
-	LONG $0x9a54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rbx + 32]
-	LONG $0x9a5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rbx + 48]
+LBB1_665:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_666:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB1_668
+	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
+	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
 	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
 	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x2098 // movups    oword [r8 + 4*rbx + 32], xmm2
-	LONG $0x5c110f41; WORD $0x3098 // movups    oword [r8 + 4*rbx + 48], xmm3
-	LONG $0x10c38348               // add    rbx, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB1_571
-	JMP  LBB1_635
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
 
-LBB1_572:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc6b60f41             // movzx    eax, r14b
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_642
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB1_668:
+	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
+	JE   LBB1_737
+	JMP  LBB1_669
 
-LBB1_574:
-	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
-	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
+LBB1_673:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_674:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_676
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+
+LBB1_676:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_677
+
+LBB1_681:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_682:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_684
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
 	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
 	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x201a             // movdqu    xmm1, oword [rdx + rbx + 32]
-	LONG $0x546f0ff3; WORD $0x301a             // movdqu    xmm2, oword [rdx + rbx + 48]
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+
+LBB1_684:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_685
+
+LBB1_689:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_690:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_692
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+
+LBB1_692:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_693
+
+LBB1_697:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_698:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_700
+	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
+	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
 	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
 	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_574
-	JMP  LBB1_643
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 
-LBB1_575:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x03ebc149             // shr    r11, 3
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB1_650
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB1_700:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_701
 
-LBB1_577:
-	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x209a             // movdqu    xmm1, oword [rdx + 4*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x309a             // movdqu    xmm2, oword [rdx + 4*rbx + 48]
+LBB1_705:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_706:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_708
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB1_708:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_709
+
+LBB1_713:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_714:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_716
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
 	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
 	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
-	LONG $0x10c38348                           // add    rbx, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB1_577
-	JMP  LBB1_651
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 
-LBB1_578:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB1_716:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_717
+
+LBB1_721:
+	WORD $0xff31 // xor    edi, edi
+
+LBB1_722:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_724
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+
+LBB1_724:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB1_737
+	JMP  LBB1_725
+
+LBB1_729:
+	WORD $0xff31 // xor    edi, edi
 
-LBB1_579:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_581
-	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
+LBB1_730:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_732
+	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
 	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
 	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 
-LBB1_581:
+LBB1_732:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_582
+	JNE  LBB1_733
+
+LBB1_737:
+	RET
+
+TEXT ·_arithmetic_scalar_arr_sse4(SB), $0-48
+
+	MOVQ typ+0(FP), DI
+	MOVQ op+8(FP), SI
+	MOVQ inLeft+16(FP), DX
+	MOVQ inRight+24(FP), CX
+	MOVQ out+32(FP), R8
+	MOVQ len+40(FP), R9
+
+	LONG $0x01fe8040         // cmp    sil, 1
+	JG   LBB2_11
+	WORD $0x8440; BYTE $0xf6 // test    sil, sil
+	JE   LBB2_21
+	LONG $0x01fe8040         // cmp    sil, 1
+	JNE  LBB2_737
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_37
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_65
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_105
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_108
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_10
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_297
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_297
+
+LBB2_10:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_421:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_423
+
+LBB2_422:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_422
+
+LBB2_423:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB1_586:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_424:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_424
+	JMP  LBB2_737
 
-LBB1_587:
-	LONG $0x01c2f641                           // test    r10b, 1
-	JE   LBB1_589
-	LONG $0x14100f66; BYTE $0xda               // movupd    xmm2, oword [rdx + 8*rbx]
-	LONG $0x5c100f66; WORD $0x10da             // movupd    xmm3, oword [rdx + 8*rbx + 16]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
-	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
+LBB2_11:
+	LONG $0x02fe8040         // cmp    sil, 2
+	JE   LBB2_29
+	LONG $0x03fe8040         // cmp    sil, 3
+	JNE  LBB2_737
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_44
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_70
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_111
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_114
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_20
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_300
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_300
 
-LBB1_589:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB1_13
-	JMP  LBB1_590
+LBB2_20:
+	WORD $0xf631 // xor    esi, esi
 
-LBB1_594:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_429:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_431
 
-LBB1_595:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_597
-	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
-	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+LBB2_430:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_430
 
-LBB1_597:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_598
+LBB2_431:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
-LBB1_602:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_432:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_432
+	JMP  LBB2_737
 
-LBB1_603:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_605
-	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+LBB2_21:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_51
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_75
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_117
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_120
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_28
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_303
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_303
 
-LBB1_605:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_606
+LBB2_28:
+	WORD $0xf631 // xor    esi, esi
 
-LBB1_610:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_437:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_439
 
-LBB1_611:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_613
-	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+LBB2_438:
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_438
 
-LBB1_613:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_614
+LBB2_439:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB1_618:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_440:
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_440
+	JMP  LBB2_737
 
-LBB1_619:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_621
-	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+LBB2_29:
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JG   LBB2_58
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JLE  LBB2_80
+	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
+	JE   LBB2_123
+	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
+	JE   LBB2_126
+	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_36
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_306
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_306
 
-LBB1_621:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_622
+LBB2_36:
+	WORD $0xf631 // xor    esi, esi
 
-LBB1_626:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_445:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_447
 
-LBB1_627:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_629
-	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+LBB2_446:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_446
 
-LBB1_629:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_630
+LBB2_447:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
-LBB1_634:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_448:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_448
+	JMP  LBB2_737
 
-LBB1_635:
-	LONG $0x01c2f641               // test    r10b, 1
-	JE   LBB1_637
-	LONG $0x9a14100f               // movups    xmm2, oword [rdx + 4*rbx]
-	LONG $0x9a5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rbx + 16]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
-	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
+LBB2_37:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_85
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_129
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_132
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_43
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_309
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_309
 
-LBB1_637:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB1_13
-	JMP  LBB1_638
+LBB2_43:
+	WORD $0xd231 // xor    edx, edx
 
-LBB1_642:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_453:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_455
 
-LBB1_643:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_645
-	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
-	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+LBB2_454:
+	LONG $0x0c100ff2; BYTE $0xd1   // movsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0xc8580ff2               // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_454
 
-LBB1_645:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_646
+LBB2_455:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_737
 
-LBB1_650:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_456:
+	LONG $0x0c100ff2; BYTE $0xd1               // movsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x4c100ff2; WORD $0x08d1             // movsd    xmm1, qword [rcx + 8*rdx + 8]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10d1             // movsd    xmm1, qword [rcx + 8*rdx + 16]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18d1             // movsd    xmm1, qword [rcx + 8*rdx + 24]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_456
+	JMP  LBB2_737
 
-LBB1_651:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_653
-	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+LBB2_44:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_90
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_135
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_138
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_50
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_312
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_312
 
-LBB1_653:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_13
-	JMP  LBB1_654
+LBB2_50:
+	WORD $0xd231 // xor    edx, edx
 
-LBB1_658:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_461:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_463
 
-LBB1_659:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_661
-	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+LBB2_462:
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	LONG $0x0c5c0ff2; BYTE $0xd1   // subsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_462
 
-LBB1_661:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_3
-	JMP  LBB1_662
+LBB2_463:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_737
 
-LBB1_666:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_464:
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x0c5c0ff2; BYTE $0xd1               // subsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x08d1             // subsd    xmm1, qword [rcx + 8*rdx + 8]
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x10d1             // subsd    xmm1, qword [rcx + 8*rdx + 16]
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x18d1             // subsd    xmm1, qword [rcx + 8*rdx + 24]
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_464
+	JMP  LBB2_737
 
-LBB1_667:
-	LONG $0x01c2f641                           // test    r10b, 1
-	JE   LBB1_669
-	LONG $0x14100f66; BYTE $0xda               // movupd    xmm2, oword [rdx + 8*rbx]
-	LONG $0x5c100f66; WORD $0x10da             // movupd    xmm3, oword [rdx + 8*rbx + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
-	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
+LBB2_51:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_95
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_141
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_144
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_57
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_315
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_315
 
-LBB1_669:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB1_3
-	JMP  LBB1_670
+LBB2_57:
+	WORD $0xd231 // xor    edx, edx
 
-LBB1_674:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_469:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_471
 
-LBB1_675:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_677
-	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
-	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+LBB2_470:
+	LONG $0x0c100ff2; BYTE $0xd1   // movsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0xc8580ff2               // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_470
 
-LBB1_677:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_3
-	JMP  LBB1_678
+LBB2_471:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_737
 
-LBB1_682:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_472:
+	LONG $0x0c100ff2; BYTE $0xd1               // movsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x4c100ff2; WORD $0x08d1             // movsd    xmm1, qword [rcx + 8*rdx + 8]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0x4c100ff2; WORD $0x10d1             // movsd    xmm1, qword [rcx + 8*rdx + 16]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0x4c100ff2; WORD $0x18d1             // movsd    xmm1, qword [rcx + 8*rdx + 24]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_472
+	JMP  LBB2_737
 
-LBB1_683:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_685
-	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+LBB2_58:
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JLE  LBB2_100
+	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
+	JE   LBB2_147
+	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
+	JE   LBB2_150
+	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_64
+	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_318
+	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_318
 
-LBB1_685:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_3
-	JMP  LBB1_686
+LBB2_64:
+	WORD $0xd231 // xor    edx, edx
 
-LBB1_690:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_477:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_479
 
-LBB1_691:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_693
-	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+LBB2_478:
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	LONG $0x0c5c0ff2; BYTE $0xd1   // subsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_478
 
-LBB1_693:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_3
-	JMP  LBB1_694
+LBB2_479:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_737
 
-LBB1_698:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_480:
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x0c5c0ff2; BYTE $0xd1               // subsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x08d1             // subsd    xmm1, qword [rcx + 8*rdx + 8]
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x10d1             // subsd    xmm1, qword [rcx + 8*rdx + 16]
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x18d1             // subsd    xmm1, qword [rcx + 8*rdx + 24]
+	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_480
+	JMP  LBB2_737
 
-LBB1_699:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_701
-	LONG $0x0c6f0ff3; BYTE $0x5a               // movdqu    xmm1, oword [rdx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x105a             // movdqu    xmm2, oword [rdx + 2*rbx + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+LBB2_65:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_153
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x028a             // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_69
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_321
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_321
 
-LBB1_701:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_3
-	JMP  LBB1_702
+LBB2_69:
+	WORD $0xf631 // xor    esi, esi
 
-LBB1_706:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_485:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_487
 
-LBB1_707:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_709
-	LONG $0x0c6f0ff3; BYTE $0xda               // movdqu    xmm1, oword [rdx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10da             // movdqu    xmm2, oword [rdx + 8*rbx + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+LBB2_486:
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_486
 
-LBB1_709:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_3
-	JMP  LBB1_710
+LBB2_487:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB1_714:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_488:
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_488
+	JMP  LBB2_737
 
-LBB1_715:
-	LONG $0x01c2f641               // test    r10b, 1
-	JE   LBB1_717
-	LONG $0x9a14100f               // movups    xmm2, oword [rdx + 4*rbx]
-	LONG $0x9a5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rbx + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
-	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
+LBB2_70:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_156
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_74
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_324
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_324
 
-LBB1_717:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB1_3
-	JMP  LBB1_718
+LBB2_74:
+	WORD $0xf631 // xor    esi, esi
 
-LBB1_722:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_493:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_495
 
-LBB1_723:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_725
-	LONG $0x0c6f0ff3; BYTE $0x1a               // movdqu    xmm1, oword [rdx + rbx]
-	LONG $0x546f0ff3; WORD $0x101a             // movdqu    xmm2, oword [rdx + rbx + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+LBB2_494:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_494
 
-LBB1_725:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_3
-	JMP  LBB1_726
+LBB2_495:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
-LBB1_730:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_496:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_496
+	JMP  LBB2_737
 
-LBB1_731:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB1_733
-	LONG $0x0c6f0ff3; BYTE $0x9a               // movdqu    xmm1, oword [rdx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x109a             // movdqu    xmm2, oword [rdx + 4*rbx + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+LBB2_75:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_159
+	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x028a             // mov    al, byte [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_79
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_327
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_327
 
-LBB1_733:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB1_3
-	JMP  LBB1_734
+LBB2_79:
+	WORD $0xf631 // xor    esi, esi
 
-TEXT ·_arithmetic_scalar_arr_sse4(SB), $0-48
+LBB2_501:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_503
 
-	MOVQ typ+0(FP), DI
-	MOVQ op+8(FP), SI
-	MOVQ inLeft+16(FP), DX
-	MOVQ inRight+24(FP), CX
-	MOVQ out+32(FP), R8
-	MOVQ len+40(FP), R9
+LBB2_502:
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_502
 
-	LONG $0x01fe8040         // cmp    sil, 1
-	JG   LBB2_11
-	WORD $0x8440; BYTE $0xf6 // test    sil, sil
-	JE   LBB2_28
-	LONG $0x01fe8040         // cmp    sil, 1
-	JNE  LBB2_517
+LBB2_503:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_3:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_36
+LBB2_504:
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_504
+	JMP  LBB2_737
+
+LBB2_80:
+	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
+	JE   LBB2_162
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_60
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_98
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_101
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_474
+	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	JLE  LBB2_737
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_10
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_254
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_254
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_84
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_330
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_330
 
-LBB2_10:
+LBB2_84:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_398:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_400
+LBB2_509:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_511
 
-LBB2_399:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+LBB2_510:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_399
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_510
 
-LBB2_400:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_474
+LBB2_511:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
-LBB2_401:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+LBB2_512:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_512
+	JMP  LBB2_737
+
+LBB2_85:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_165
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_737
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_89
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_333
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_333
+
+LBB2_89:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_517:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_519
+
+LBB2_518:
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_518
+
+LBB2_519:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
+
+LBB2_520:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_401
-	JMP  LBB2_474
-
-LBB2_11:
-	LONG $0x02fe8040 // cmp    sil, 2
-	JE   LBB2_474
-	LONG $0x03fe8040 // cmp    sil, 3
-	JNE  LBB2_517
+	JNE  LBB2_520
+	JMP  LBB2_737
 
-LBB2_13:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_21
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_50
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_70
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_73
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_517
+LBB2_90:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_168
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	JLE  LBB2_737
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_20
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_94
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_194
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	JBE  LBB2_336
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_194
+	JBE  LBB2_336
 
-LBB2_20:
+LBB2_94:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_318:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_320
-
-LBB2_319:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+LBB2_525:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_527
+
+LBB2_526:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc28348         // add    rdx, -1
-	JNE  LBB2_319
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_526
 
-LBB2_320:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB2_517
+LBB2_527:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
-LBB2_321:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+LBB2_528:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_321
-	JMP  LBB2_517
+	JNE  LBB2_528
+	JMP  LBB2_737
 
-LBB2_21:
+LBB2_95:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_171
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_55
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_76
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_79
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_517
+	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	JLE  LBB2_737
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_27
-	LONG $0xc1148d48         // lea    rdx, [rcx + 8*rax]
+	JB   LBB2_99
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_197
-	LONG $0xc0148d49         // lea    rdx, [r8 + 8*rax]
+	JBE  LBB2_339
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_197
+	JBE  LBB2_339
 
-LBB2_27:
-	WORD $0xd231 // xor    edx, edx
+LBB2_99:
+	WORD $0xf631 // xor    esi, esi
 
-LBB2_326:
-	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
-	WORD $0xf748; BYTE $0xd6 // not    rsi
-	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
-	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+LBB2_533:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_328
-
-LBB2_327:
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	LONG $0x0c5c0ff2; BYTE $0xd1   // subsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x01c28348               // add    rdx, 1
-	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_327
-
-LBB2_328:
-	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_517
+	JE   LBB2_535
 
-LBB2_329:
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x0c5c0ff2; BYTE $0xd1               // subsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x08d1             // subsd    xmm1, qword [rcx + 8*rdx + 8]
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x10d1             // subsd    xmm1, qword [rcx + 8*rdx + 16]
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x18d1             // subsd    xmm1, qword [rcx + 8*rdx + 24]
-	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
-	LONG $0x04c28348                           // add    rdx, 4
-	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_329
-	JMP  LBB2_517
+LBB2_534:
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_534
+
+LBB2_535:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
+
+LBB2_536:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_536
+	JMP  LBB2_737
 
-LBB2_28:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_43
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_88
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_116
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_119
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_3
+LBB2_100:
+	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
+	JE   LBB2_174
+	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
+	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	JLE  LBB2_737
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_35
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_284
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_284
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_104
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_342
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_342
 
-LBB2_35:
+LBB2_104:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_662:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_664
+LBB2_541:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_543
 
-LBB2_663:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+LBB2_542:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_663
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_542
 
-LBB2_664:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_3
+LBB2_543:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
-LBB2_665:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+LBB2_544:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_665
-	JMP  LBB2_3
+	JNE  LBB2_544
+	JMP  LBB2_737
 
-LBB2_36:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_65
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_104
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_107
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_474
+LBB2_105:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_42
-	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_257
-	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_257
+	JLE  LBB2_737
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_107
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_345
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_345
 
-LBB2_42:
+LBB2_107:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_406:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_408
+LBB2_549:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_551
 
-LBB2_407:
-	LONG $0x0c100ff2; BYTE $0xf1   // movsd    xmm1, qword [rcx + 8*rsi]
-	LONG $0xc8580ff2               // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB2_407
+LBB2_550:
+	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2     // add    dx, ax
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_550
 
-LBB2_408:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB2_474
+LBB2_551:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_409:
-	LONG $0x0c100ff2; BYTE $0xf1               // movsd    xmm1, qword [rcx + 8*rsi]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf00c             // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x4c100ff2; WORD $0x08f1             // movsd    xmm1, qword [rcx + 8*rsi + 8]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10f1             // movsd    xmm1, qword [rcx + 8*rsi + 16]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18f1             // movsd    xmm1, qword [rcx + 8*rsi + 24]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB2_409
-	JMP  LBB2_474
+LBB2_552:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_552
+	JMP  LBB2_737
 
-LBB2_43:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_93
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_122
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_125
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_3
+LBB2_108:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_49
-	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_287
-	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_287
+	JLE  LBB2_737
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_110
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_348
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_348
 
-LBB2_49:
+LBB2_110:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_670:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_672
+LBB2_557:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_559
 
-LBB2_671:
-	LONG $0x0c100ff2; BYTE $0xf1   // movsd    xmm1, qword [rcx + 8*rsi]
-	LONG $0xc8580ff2               // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB2_671
+LBB2_558:
+	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2     // add    dx, ax
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_558
 
-LBB2_672:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB2_3
+LBB2_559:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_673:
-	LONG $0x0c100ff2; BYTE $0xf1               // movsd    xmm1, qword [rcx + 8*rsi]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf00c             // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x4c100ff2; WORD $0x08f1             // movsd    xmm1, qword [rcx + 8*rsi + 8]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10f1             // movsd    xmm1, qword [rcx + 8*rsi + 16]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18f1             // movsd    xmm1, qword [rcx + 8*rsi + 24]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB2_673
-	JMP  LBB2_3
+LBB2_560:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_560
+	JMP  LBB2_737
 
-LBB2_50:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_82
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_517
+LBB2_111:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
+	JLE  LBB2_737
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_54
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_113
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_200
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	JBE  LBB2_351
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_200
+	JBE  LBB2_351
 
-LBB2_54:
+LBB2_113:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_334:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_336
+LBB2_565:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_567
 
-LBB2_335:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc28348         // add    rdx, -1
-	JNE  LBB2_335
+LBB2_566:
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_566
 
-LBB2_336:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB2_517
+LBB2_567:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_337:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_337
-	JMP  LBB2_517
+LBB2_568:
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_568
+	JMP  LBB2_737
 
-LBB2_55:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_85
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_517
+LBB2_114:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	JLE  LBB2_737
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_59
-	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_116
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_203
-	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	JBE  LBB2_354
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_203
+	JBE  LBB2_354
 
-LBB2_59:
+LBB2_116:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_342:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_344
-
-LBB2_343:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc28348         // add    rdx, -1
-	JNE  LBB2_343
+LBB2_573:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_575
 
-LBB2_344:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB2_517
+LBB2_574:
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_574
 
-LBB2_345:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_345
-	JMP  LBB2_517
+LBB2_575:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_60:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_110
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_474
+LBB2_576:
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_576
+	JMP  LBB2_737
+
+LBB2_117:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	JLE  LBB2_737
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_64
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_260
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_260
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_119
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_357
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_357
 
-LBB2_64:
+LBB2_119:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_414:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_416
-
-LBB2_415:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0044; BYTE $0xf0 // add    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_415
+LBB2_581:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_583
 
-LBB2_416:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_474
+LBB2_582:
+	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2     // add    dx, ax
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_582
 
-LBB2_417:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_417
-	JMP  LBB2_474
+LBB2_583:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_65:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_113
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_474
+LBB2_584:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_584
+	JMP  LBB2_737
+
+LBB2_120:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	JLE  LBB2_737
+	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_69
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_263
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_263
+	LONG $0x10f98341         // cmp    r9d, 16
+	JB   LBB2_122
+	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_360
+	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_360
 
-LBB2_69:
+LBB2_122:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_422:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_424
+LBB2_589:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_591
 
-LBB2_423:
-	LONG $0xf1048b48         // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0 // add    rax, r14
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_423
+LBB2_590:
+	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2     // add    dx, ax
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
+	LONG $0x01c68348             // add    rsi, 1
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_590
 
-LBB2_424:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_474
+LBB2_591:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_425:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_425
-	JMP  LBB2_474
+LBB2_592:
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
+	LONG $0x04c68348               // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
+	JNE  LBB2_592
+	JMP  LBB2_737
 
-LBB2_70:
+LBB2_123:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
+	JLE  LBB2_737
 	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_72
+	JB   LBB2_125
 	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_206
+	JBE  LBB2_363
 	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_206
+	JBE  LBB2_363
 
-LBB2_72:
+LBB2_125:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_350:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_352
+LBB2_597:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_599
 
-LBB2_351:
-	WORD $0xc389                 // mov    ebx, eax
-	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+LBB2_598:
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
 	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_351
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_598
 
-LBB2_352:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB2_517
+LBB2_599:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_353:
+LBB2_600:
 	WORD $0xc289                   // mov    edx, eax
 	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
 	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
@@ -9971,47 +10653,47 @@ LBB2_353:
 	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_353
-	JMP  LBB2_517
+	JNE  LBB2_600
+	JMP  LBB2_737
 
-LBB2_73:
+LBB2_126:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
+	JLE  LBB2_737
 	WORD $0xb70f; BYTE $0x02 // movzx    eax, word [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_75
+	JB   LBB2_128
 	LONG $0x51148d4a         // lea    rdx, [rcx + 2*r10]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_209
+	JBE  LBB2_366
 	LONG $0x50148d4b         // lea    rdx, [r8 + 2*r10]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_209
+	JBE  LBB2_366
 
-LBB2_75:
+LBB2_128:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_358:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_360
+LBB2_605:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_607
 
-LBB2_359:
-	WORD $0xc389                 // mov    ebx, eax
-	LONG $0x711c2b66             // sub    bx, word [rcx + 2*rsi]
-	LONG $0x1c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], bx
+LBB2_606:
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
+	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
 	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc28348             // add    rdx, -1
-	JNE  LBB2_359
+	LONG $0xffc78348             // add    rdi, -1
+	JNE  LBB2_606
 
-LBB2_360:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB2_517
+LBB2_607:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_361:
+LBB2_608:
 	WORD $0xc289                   // mov    edx, eax
 	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
 	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
@@ -10026,47 +10708,157 @@ LBB2_361:
 	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_361
-	JMP  LBB2_517
+	JNE  LBB2_608
+	JMP  LBB2_737
+
+LBB2_129:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_131
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_369
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_369
+
+LBB2_131:
+	WORD $0xf631 // xor    esi, esi
+
+LBB2_613:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_615
+
+LBB2_614:
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_614
+
+LBB2_615:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
+
+LBB2_616:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_616
+	JMP  LBB2_737
+
+LBB2_132:
+	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
+	JLE  LBB2_737
+	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_134
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_372
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_372
+
+LBB2_134:
+	WORD $0xd231 // xor    edx, edx
+
+LBB2_621:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_623
+
+LBB2_622:
+	LONG $0x0c100ff3; BYTE $0x91   // movss    xmm1, dword [rcx + 4*rdx]
+	LONG $0xc8580ff3               // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_622
+
+LBB2_623:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_737
+
+LBB2_624:
+	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x0891             // movss    xmm1, dword [rcx + 4*rdx + 8]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0c91             // movss    xmm1, dword [rcx + 4*rdx + 12]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_624
+	JMP  LBB2_737
 
-LBB2_76:
+LBB2_135:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
+	JLE  LBB2_737
 	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_78
+	JB   LBB2_137
 	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_212
+	JBE  LBB2_375
 	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_212
+	JBE  LBB2_375
 
-LBB2_78:
+LBB2_137:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_366:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_368
-
-LBB2_367:
+LBB2_629:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_631
+
+LBB2_630:
 	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
 	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
 	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc28348         // add    rdx, -1
-	JNE  LBB2_367
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_630
 
-LBB2_368:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB2_517
+LBB2_631:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
-LBB2_369:
+LBB2_632:
 	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
 	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
 	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
@@ -10081,47 +10873,47 @@ LBB2_369:
 	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_369
-	JMP  LBB2_517
+	JNE  LBB2_632
+	JMP  LBB2_737
 
-LBB2_79:
+LBB2_138:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
+	JLE  LBB2_737
 	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
 	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_81
+	JB   LBB2_140
 	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_215
+	JBE  LBB2_378
 	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_215
+	JBE  LBB2_378
 
-LBB2_81:
+LBB2_140:
 	WORD $0xd231 // xor    edx, edx
 
-LBB2_374:
+LBB2_637:
 	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
 	WORD $0xf748; BYTE $0xd6 // not    rsi
 	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
 	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB2_376
+	JE   LBB2_639
 
-LBB2_375:
+LBB2_638:
 	WORD $0x280f; BYTE $0xc8       // movaps    xmm1, xmm0
 	LONG $0x0c5c0ff3; BYTE $0x91   // subss    xmm1, dword [rcx + 4*rdx]
 	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
 	LONG $0x01c28348               // add    rdx, 1
 	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB2_375
+	JNE  LBB2_638
 
-LBB2_376:
+LBB2_639:
 	LONG $0x03fe8348 // cmp    rsi, 3
-	JB   LBB2_517
+	JB   LBB2_737
 
-LBB2_377:
+LBB2_640:
 	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
 	LONG $0x0c5c0ff3; BYTE $0x91               // subss    xmm1, dword [rcx + 4*rdx]
 	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
@@ -10136,1245 +10928,704 @@ LBB2_377:
 	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
 	LONG $0x04c28348                           // add    rdx, 4
 	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
-	JNE  LBB2_377
-	JMP  LBB2_517
+	JNE  LBB2_640
+	JMP  LBB2_737
 
-LBB2_82:
+LBB2_141:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
+	JLE  LBB2_737
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_84
-	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	LONG $0x04f98341         // cmp    r9d, 4
+	JB   LBB2_143
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_218
-	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	JBE  LBB2_381
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_218
+	JBE  LBB2_381
 
-LBB2_84:
+LBB2_143:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_382:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_384
+LBB2_645:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_647
 
-LBB2_383:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
+LBB2_646:
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc28348         // add    rdx, -1
-	JNE  LBB2_383
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_646
 
-LBB2_384:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB2_517
+LBB2_647:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_385:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+LBB2_648:
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_385
-	JMP  LBB2_517
+	JNE  LBB2_648
+	JMP  LBB2_737
 
-LBB2_85:
+LBB2_144:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
+	JLE  LBB2_737
+	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_87
-	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	JB   LBB2_146
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
 	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
-	JBE  LBB2_221
-	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	JBE  LBB2_384
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
 	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
-	JBE  LBB2_221
-
-LBB2_87:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_390:
-	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
-	WORD $0xf748; BYTE $0xd7 // not    rdi
-	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
-	WORD $0x894c; BYTE $0xd2 // mov    rdx, r10
-	LONG $0x03e28348         // and    rdx, 3
-	JE   LBB2_392
-
-LBB2_391:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc28348         // add    rdx, -1
-	JNE  LBB2_391
-
-LBB2_392:
-	LONG $0x03ff8348 // cmp    rdi, 3
-	JB   LBB2_517
-
-LBB2_393:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_393
-	JMP  LBB2_517
-
-LBB2_88:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_128
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_3
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_92
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_290
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_290
-
-LBB2_92:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_678:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_680
-
-LBB2_679:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0044; BYTE $0xf0 // add    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_679
-
-LBB2_680:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_3
-
-LBB2_681:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_681
-	JMP  LBB2_3
-
-LBB2_93:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_131
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_3
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_97
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_293
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_293
-
-LBB2_97:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_686:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_688
-
-LBB2_687:
-	LONG $0xf1048b48         // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0 // add    rax, r14
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_687
-
-LBB2_688:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_3
-
-LBB2_689:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_689
-	JMP  LBB2_3
-
-LBB2_98:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x32b70f44         // movzx    r14d, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_100
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_266
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_266
-
-LBB2_100:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_430:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_432
-
-LBB2_431:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0xf0014466             // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB2_431
-
-LBB2_432:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_474
-
-LBB2_433:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_433
-	JMP  LBB2_474
-
-LBB2_101:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x32b70f44         // movzx    r14d, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_103
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_269
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_269
+	JBE  LBB2_384
 
-LBB2_103:
-	WORD $0xf631 // xor    esi, esi
+LBB2_146:
+	WORD $0xd231 // xor    edx, edx
 
-LBB2_438:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_440
+LBB2_653:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_655
 
-LBB2_439:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0xf0014466             // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB2_439
+LBB2_654:
+	LONG $0x0c100ff3; BYTE $0x91   // movss    xmm1, dword [rcx + 4*rdx]
+	LONG $0xc8580ff3               // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_654
 
-LBB2_440:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_474
+LBB2_655:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_737
 
-LBB2_441:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_441
-	JMP  LBB2_474
+LBB2_656:
+	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
+	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
+	LONG $0x4c100ff3; WORD $0x0891             // movss    xmm1, dword [rcx + 4*rdx + 8]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
+	LONG $0x4c100ff3; WORD $0x0c91             // movss    xmm1, dword [rcx + 4*rdx + 12]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_656
+	JMP  LBB2_737
 
-LBB2_104:
+LBB2_147:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	JLE  LBB2_737
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_106
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_272
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_272
+	JB   LBB2_149
+	LONG $0xd1148d4a         // lea    rdx, [rcx + 8*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_387
+	LONG $0xd0148d4b         // lea    rdx, [r8 + 8*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_387
 
-LBB2_106:
+LBB2_149:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_446:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_448
+LBB2_661:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_663
 
-LBB2_447:
-	LONG $0xf1048b48         // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0 // add    rax, r14
+LBB2_662:
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
 	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_447
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_662
 
-LBB2_448:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_474
+LBB2_663:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
-LBB2_449:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+LBB2_664:
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
 	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
 	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
 	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
 	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_449
-	JMP  LBB2_474
+	JNE  LBB2_664
+	JMP  LBB2_737
 
-LBB2_107:
+LBB2_150:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
+	JLE  LBB2_737
 	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	WORD $0x8944; BYTE $0xc8 // mov    eax, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_109
-	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_275
-	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_275
+	JB   LBB2_152
+	LONG $0x81148d48         // lea    rdx, [rcx + 4*rax]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_390
+	LONG $0x80148d49         // lea    rdx, [r8 + 4*rax]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_390
 
-LBB2_109:
-	WORD $0xf631 // xor    esi, esi
+LBB2_152:
+	WORD $0xd231 // xor    edx, edx
 
-LBB2_454:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_456
+LBB2_669:
+	WORD $0x8948; BYTE $0xd6 // mov    rsi, rdx
+	WORD $0xf748; BYTE $0xd6 // not    rsi
+	WORD $0x0148; BYTE $0xc6 // add    rsi, rax
+	WORD $0x8948; BYTE $0xc7 // mov    rdi, rax
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_671
 
-LBB2_455:
-	LONG $0x0c100ff3; BYTE $0xb1   // movss    xmm1, dword [rcx + 4*rsi]
-	LONG $0xc8580ff3               // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB2_455
+LBB2_670:
+	WORD $0x280f; BYTE $0xc8       // movaps    xmm1, xmm0
+	LONG $0x0c5c0ff3; BYTE $0x91   // subss    xmm1, dword [rcx + 4*rdx]
+	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
+	LONG $0x01c28348               // add    rdx, 1
+	LONG $0xffc78348               // add    rdi, -1
+	JNE  LBB2_670
 
-LBB2_456:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB2_474
+LBB2_671:
+	LONG $0x03fe8348 // cmp    rsi, 3
+	JB   LBB2_737
 
-LBB2_457:
-	LONG $0x0c100ff3; BYTE $0xb1               // movss    xmm1, dword [rcx + 4*rsi]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb00c             // movss    dword [r8 + 4*rsi], xmm1
-	LONG $0x4c100ff3; WORD $0x04b1             // movss    xmm1, dword [rcx + 4*rsi + 4]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x08b1             // movss    xmm1, dword [rcx + 4*rsi + 8]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0cb1             // movss    xmm1, dword [rcx + 4*rsi + 12]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB2_457
-	JMP  LBB2_474
+LBB2_672:
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x0c5c0ff3; BYTE $0x91               // subss    xmm1, dword [rcx + 4*rdx]
+	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x0491             // subss    xmm1, dword [rcx + 4*rdx + 4]
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x0891             // subss    xmm1, dword [rcx + 4*rdx + 8]
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x0c91             // subss    xmm1, dword [rcx + 4*rdx + 12]
+	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
+	LONG $0x04c28348                           // add    rdx, 4
+	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
+	JNE  LBB2_672
+	JMP  LBB2_737
 
-LBB2_110:
+LBB2_153:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	JLE  LBB2_737
+	WORD $0x028a             // mov    al, byte [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_112
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_278
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_278
+	JB   LBB2_155
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_393
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_393
 
-LBB2_112:
+LBB2_155:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_462:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_464
+LBB2_677:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_679
 
-LBB2_463:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0044; BYTE $0xf0 // add    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_463
+LBB2_678:
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_678
 
-LBB2_464:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_474
+LBB2_679:
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
-LBB2_465:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+LBB2_680:
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_465
-	JMP  LBB2_474
+	JNE  LBB2_680
+	JMP  LBB2_737
 
-LBB2_113:
+LBB2_156:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	JLE  LBB2_737
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_115
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_281
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_281
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_158
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_396
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_396
 
-LBB2_115:
+LBB2_158:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_470:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_472
+LBB2_685:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_687
 
-LBB2_471:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+LBB2_686:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_471
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_686
 
-LBB2_472:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_474
+LBB2_687:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
-LBB2_473:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+LBB2_688:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_473
-	JMP  LBB2_474
+	JNE  LBB2_688
+	JMP  LBB2_737
 
-LBB2_116:
+LBB2_159:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x32b70f44         // movzx    r14d, word [rdx]
+	JLE  LBB2_737
+	WORD $0x028a             // mov    al, byte [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_118
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_296
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_296
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_161
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_399
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_399
 
-LBB2_118:
+LBB2_161:
 	WORD $0xf631 // xor    esi, esi
 
+LBB2_693:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_695
+
 LBB2_694:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_696
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
+	JNE  LBB2_694
 
 LBB2_695:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0xf0014466             // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB2_695
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
 LBB2_696:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_3
-
-LBB2_697:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_697
-	JMP  LBB2_3
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_696
+	JMP  LBB2_737
 
-LBB2_119:
+LBB2_162:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x32b70f44         // movzx    r14d, word [rdx]
+	JLE  LBB2_737
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_121
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_299
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_299
+	LONG $0x20f98341         // cmp    r9d, 32
+	JB   LBB2_164
+	LONG $0x11148d4a         // lea    rdx, [rcx + r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_402
+	LONG $0x10148d4b         // lea    rdx, [r8 + r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_402
 
-LBB2_121:
+LBB2_164:
 	WORD $0xf631 // xor    esi, esi
 
+LBB2_701:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_703
+
 LBB2_702:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_704
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_702
 
 LBB2_703:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0xf0014466             // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB2_703
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
 LBB2_704:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_3
-
-LBB2_705:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0xf0014466               // add    ax, r14w
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_705
-	JMP  LBB2_3
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_704
+	JMP  LBB2_737
 
-LBB2_122:
+LBB2_165:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
+	JLE  LBB2_737
+	WORD $0x028b             // mov    eax, dword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_124
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_302
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_302
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_167
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_405
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_405
 
-LBB2_124:
+LBB2_167:
 	WORD $0xf631 // xor    esi, esi
 
+LBB2_709:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_711
+
 LBB2_710:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_712
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_710
 
 LBB2_711:
-	LONG $0xf1048b48         // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0 // add    rax, r14
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_711
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
 LBB2_712:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_3
-
-LBB2_713:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	WORD $0x014c; BYTE $0xf0     // add    rax, r14
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_713
-	JMP  LBB2_3
+	JNE  LBB2_712
+	JMP  LBB2_737
 
-LBB2_125:
+LBB2_168:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
+	JLE  LBB2_737
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_127
-	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_305
-	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_305
+	JB   LBB2_170
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_408
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_408
 
-LBB2_127:
+LBB2_170:
 	WORD $0xf631 // xor    esi, esi
 
+LBB2_717:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_719
+
 LBB2_718:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_720
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_718
 
 LBB2_719:
-	LONG $0x0c100ff3; BYTE $0xb1   // movss    xmm1, dword [rcx + 4*rsi]
-	LONG $0xc8580ff3               // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB2_719
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
 LBB2_720:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB2_3
-
-LBB2_721:
-	LONG $0x0c100ff3; BYTE $0xb1               // movss    xmm1, dword [rcx + 4*rsi]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb00c             // movss    dword [r8 + 4*rsi], xmm1
-	LONG $0x4c100ff3; WORD $0x04b1             // movss    xmm1, dword [rcx + 4*rsi + 4]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x08b1             // movss    xmm1, dword [rcx + 4*rsi + 8]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0cb1             // movss    xmm1, dword [rcx + 4*rsi + 12]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB2_721
-	JMP  LBB2_3
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_720
+	JMP  LBB2_737
 
-LBB2_128:
+LBB2_171:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
+	JLE  LBB2_737
+	WORD $0x028b             // mov    eax, dword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_130
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_308
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_308
+	LONG $0x08f98341         // cmp    r9d, 8
+	JB   LBB2_173
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_411
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_411
 
-LBB2_130:
+LBB2_173:
 	WORD $0xf631 // xor    esi, esi
 
+LBB2_725:
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_727
+
 LBB2_726:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_728
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_726
 
 LBB2_727:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0044; BYTE $0xf0 // add    al, r14b
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_727
+	LONG $0x03f98349 // cmp    r9, 3
+	JB   LBB2_737
 
 LBB2_728:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_3
-
-LBB2_729:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	WORD $0x0044; BYTE $0xf0     // add    al, r14b
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_729
-	JMP  LBB2_3
+	JNE  LBB2_728
+	JMP  LBB2_737
 
-LBB2_131:
+LBB2_174:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
+	JLE  LBB2_737
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_133
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_311
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_311
+	JB   LBB2_176
+	LONG $0x91148d4a         // lea    rdx, [rcx + 4*r10]
+	WORD $0x394c; BYTE $0xc2 // cmp    rdx, r8
+	JBE  LBB2_414
+	LONG $0x90148d4b         // lea    rdx, [r8 + 4*r10]
+	WORD $0x3948; BYTE $0xca // cmp    rdx, rcx
+	JBE  LBB2_414
 
-LBB2_133:
+LBB2_176:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_734:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_736
+LBB2_733:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
+	LONG $0x03e78348         // and    rdi, 3
+	JE   LBB2_735
 
-LBB2_735:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0 // add    eax, r14d
+LBB2_734:
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
 	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
 	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_735
-
-LBB2_736:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_3
-
-LBB2_737:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	WORD $0x0144; BYTE $0xf0     // add    eax, r14d
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_737
-	JMP  LBB2_3
-
-LBB2_194:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x03e9c149             // shr    r9, 3
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_314
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_196:
-	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x981c             // movdqu    oword [r8 + 4*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2099             // movdqu    xmm1, oword [rcx + 4*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3099             // movdqu    xmm2, oword [rcx + 4*rbx + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x985c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm1
-	LONG $0x10c38348                           // add    rbx, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB2_196
-	JMP  LBB2_315
-
-LBB2_197:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xfc // and    edx, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-	LONG $0x02ebc148         // shr    rbx, 2
-	LONG $0x01c38348         // add    rbx, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_322
-	WORD $0x8948; BYTE $0xde // mov    rsi, rbx
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
-
-LBB2_199:
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xd1280f66                           // movapd    xmm2, xmm1
-	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
-	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm2
-	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xd1280f66                           // movapd    xmm2, xmm1
-	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
-	LONG $0x110f4166; WORD $0xf864; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm4
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm2
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c68348                           // add    rsi, 2
-	JNE  LBB2_199
-	JMP  LBB2_323
+	LONG $0xffc78348         // add    rdi, -1
+	JNE  LBB2_734
 
-LBB2_200:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xd3b60f41             // movzx    edx, r11b
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_330
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_202:
-	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
-	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x181c             // movdqu    oword [r8 + rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2019             // movdqu    xmm1, oword [rcx + rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3019             // movdqu    xmm2, oword [rcx + rbx + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x185c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm1
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB2_202
-	JMP  LBB2_331
-
-LBB2_203:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_338
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_205:
-	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xd81c             // movdqu    oword [r8 + 8*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20d9             // movdqu    xmm1, oword [rcx + 8*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x30d9             // movdqu    xmm2, oword [rcx + 8*rbx + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xd85c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm1
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB2_205
-	JMP  LBB2_339
-
-LBB2_206:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_346
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_208:
-	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x581c             // movdqu    oword [r8 + 2*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2059             // movdqu    xmm1, oword [rcx + 2*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3059             // movdqu    xmm2, oword [rcx + 2*rbx + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x585c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm1
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB2_208
-	JMP  LBB2_347
-
-LBB2_209:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x04e9c149             // shr    r9, 4
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_354
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_211:
-	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x581c             // movdqu    oword [r8 + 2*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2059             // movdqu    xmm1, oword [rcx + 2*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3059             // movdqu    xmm2, oword [rcx + 2*rbx + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x585c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm1
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB2_211
-	JMP  LBB2_355
-
-LBB2_212:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
-	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x02e9c149             // shr    r9, 2
-	LONG $0x01c18349             // add    r9, 1
-	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_362
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_214:
-	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xd81c             // movdqu    oword [r8 + 8*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20d9             // movdqu    xmm1, oword [rcx + 8*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x30d9             // movdqu    xmm2, oword [rcx + 8*rbx + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xd85c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm1
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB2_214
-	JMP  LBB2_363
-
-LBB2_215:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0xe283; BYTE $0xf8 // and    edx, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
-	WORD $0x8948; BYTE $0xf3 // mov    rbx, rsi
-	LONG $0x03ebc148         // shr    rbx, 3
-	LONG $0x01c38348         // add    rbx, 1
-	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
-	JE   LBB2_370
-	WORD $0x8948; BYTE $0xde // mov    rsi, rbx
-	LONG $0xfee68348         // and    rsi, -2
-	WORD $0xf748; BYTE $0xde // neg    rsi
-	WORD $0xff31             // xor    edi, edi
+LBB2_735:
+	LONG $0x03fa8348 // cmp    rdx, 3
+	JB   LBB2_737
 
-LBB2_217:
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
-	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
-	LONG $0x54110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm2
-	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
-	LONG $0x64110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm4
-	LONG $0x54110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm2
-	LONG $0x10c78348               // add    rdi, 16
-	LONG $0x02c68348               // add    rsi, 2
-	JNE  LBB2_217
-	JMP  LBB2_371
+LBB2_736:
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	LONG $0x04c68348             // add    rsi, 4
+	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
+	JNE  LBB2_736
+	JMP  LBB2_737
 
-LBB2_218:
+LBB2_297:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xd3b60f41             // movzx    edx, r11b
-	LONG $0xc26e0f66             // movd    xmm0, edx
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
-	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x03e9c149             // shr    r9, 3
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_378
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_220:
-	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
-	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x181c             // movdqu    oword [r8 + rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2019             // movdqu    xmm1, oword [rcx + rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3019             // movdqu    xmm2, oword [rcx + rbx + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x185c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm1
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB2_220
-	JMP  LBB2_379
-
-LBB2_221:
+	JE   LBB2_417
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_299:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_299
+	JMP  LBB2_418
+
+LBB2_300:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf8     // and    esi, -8
 	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
@@ -11384,2423 +11635,2160 @@ LBB2_221:
 	LONG $0x03e9c149             // shr    r9, 3
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
-	JE   LBB2_386
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_223:
-	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	JE   LBB2_425
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_302:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
 	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
 	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
 	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
 	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x981c             // movdqu    oword [r8 + 4*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2099             // movdqu    xmm1, oword [rcx + 4*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3099             // movdqu    xmm2, oword [rcx + 4*rbx + 48]
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
 	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
 	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
 	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
 	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x985c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm1
-	LONG $0x10c38348                           // add    rbx, 16
-	LONG $0x02c78348                           // add    rdi, 2
-	JNE  LBB2_223
-	JMP  LBB2_387
-
-LBB2_254:
+	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_302
+	JMP  LBB2_426
+
+LBB2_303:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
+	LONG $0xc06e0f66             // movd    xmm0, eax
 	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x03ebc149             // shr    r11, 3
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_394
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_433
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_256:
-	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+LBB2_305:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
 	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
 	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2099             // movdqu    xmm1, oword [rcx + 4*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3099             // movdqu    xmm2, oword [rcx + 4*rbx + 48]
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
 	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
 	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
-	LONG $0x10c38348                           // add    rbx, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_256
-	JMP  LBB2_395
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_305
+	JMP  LBB2_434
 
-LBB2_257:
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
+LBB2_306:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_441
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_308:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_308
+	JMP  LBB2_442
+
+LBB2_309:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
 	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x02eac149         // shr    r10, 2
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB2_402
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xdb31             // xor    ebx, ebx
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_449
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
 
-LBB2_259:
-	LONG $0x14100f66; BYTE $0xd9               // movupd    xmm2, oword [rcx + 8*rbx]
-	LONG $0x5c100f66; WORD $0x10d9             // movupd    xmm3, oword [rcx + 8*rbx + 16]
+LBB2_311:
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
 	LONG $0xd1580f66                           // addpd    xmm2, xmm1
 	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
-	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
-	LONG $0x54100f66; WORD $0x20d9             // movupd    xmm2, oword [rcx + 8*rbx + 32]
-	LONG $0x5c100f66; WORD $0x30d9             // movupd    xmm3, oword [rcx + 8*rbx + 48]
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
 	LONG $0xd1580f66                           // addpd    xmm2, xmm1
 	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xd854; BYTE $0x20 // movupd    oword [r8 + 8*rbx + 32], xmm2
-	LONG $0x110f4166; WORD $0xd85c; BYTE $0x30 // movupd    oword [r8 + 8*rbx + 48], xmm3
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_259
-	JMP  LBB2_403
-
-LBB2_260:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc6b60f41             // movzx    eax, r14b
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_410
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_262:
-	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
-	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2019             // movdqu    xmm1, oword [rcx + rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3019             // movdqu    xmm2, oword [rcx + rbx + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_262
-	JMP  LBB2_411
-
-LBB2_263:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x02ebc149             // shr    r11, 2
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_418
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_265:
-	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20d9             // movdqu    xmm1, oword [rcx + 8*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x30d9             // movdqu    xmm2, oword [rcx + 8*rbx + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_265
-	JMP  LBB2_419
-
-LBB2_266:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_426
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_268:
-	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2059             // movdqu    xmm1, oword [rcx + 2*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3059             // movdqu    xmm2, oword [rcx + 2*rbx + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_268
-	JMP  LBB2_427
-
-LBB2_269:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_434
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_271:
-	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2059             // movdqu    xmm1, oword [rcx + 2*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3059             // movdqu    xmm2, oword [rcx + 2*rbx + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_271
-	JMP  LBB2_435
-
-LBB2_272:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x02ebc149             // shr    r11, 2
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_442
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_274:
-	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20d9             // movdqu    xmm1, oword [rcx + 8*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x30d9             // movdqu    xmm2, oword [rcx + 8*rbx + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_274
-	JMP  LBB2_443
-
-LBB2_275:
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x03eac149         // shr    r10, 3
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB2_450
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xdb31             // xor    ebx, ebx
-
-LBB2_277:
-	LONG $0x9914100f               // movups    xmm2, oword [rcx + 4*rbx]
-	LONG $0x995c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rbx + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
-	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
-	LONG $0x9954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rbx + 32]
-	LONG $0x995c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rbx + 48]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x2098 // movups    oword [r8 + 4*rbx + 32], xmm2
-	LONG $0x5c110f41; WORD $0x3098 // movups    oword [r8 + 4*rbx + 48], xmm3
-	LONG $0x10c38348               // add    rbx, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB2_277
-	JMP  LBB2_451
-
-LBB2_278:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc6b60f41             // movzx    eax, r14b
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_458
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_280:
-	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
-	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2019             // movdqu    xmm1, oword [rcx + rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3019             // movdqu    xmm2, oword [rcx + rbx + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_280
-	JMP  LBB2_459
-
-LBB2_281:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x03ebc149             // shr    r11, 3
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_466
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_283:
-	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2099             // movdqu    xmm1, oword [rcx + 4*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3099             // movdqu    xmm2, oword [rcx + 4*rbx + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
-	LONG $0x10c38348                           // add    rbx, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_283
-	JMP  LBB2_467
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_311
+	JMP  LBB2_450
 
-LBB2_284:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x03ebc149             // shr    r11, 3
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_658
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB2_312:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_457
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
 
-LBB2_286:
-	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2099             // movdqu    xmm1, oword [rcx + 4*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3099             // movdqu    xmm2, oword [rcx + 4*rbx + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
-	LONG $0x10c38348                           // add    rbx, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_286
-	JMP  LBB2_659
+LBB2_314:
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xd1280f66                           // movapd    xmm2, xmm1
+	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
+	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xd1280f66                           // movapd    xmm2, xmm1
+	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
+	LONG $0x110f4166; WORD $0xf864; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm4
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_314
+	JMP  LBB2_458
 
-LBB2_287:
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x02eac149         // shr    r10, 2
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB2_666
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xdb31             // xor    ebx, ebx
+LBB2_315:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_465
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
 
-LBB2_289:
-	LONG $0x14100f66; BYTE $0xd9               // movupd    xmm2, oword [rcx + 8*rbx]
-	LONG $0x5c100f66; WORD $0x10d9             // movupd    xmm3, oword [rcx + 8*rbx + 16]
+LBB2_317:
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
 	LONG $0xd1580f66                           // addpd    xmm2, xmm1
 	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
-	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
-	LONG $0x54100f66; WORD $0x20d9             // movupd    xmm2, oword [rcx + 8*rbx + 32]
-	LONG $0x5c100f66; WORD $0x30d9             // movupd    xmm3, oword [rcx + 8*rbx + 48]
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
 	LONG $0xd1580f66                           // addpd    xmm2, xmm1
 	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xd854; BYTE $0x20 // movupd    oword [r8 + 8*rbx + 32], xmm2
-	LONG $0x110f4166; WORD $0xd85c; BYTE $0x30 // movupd    oword [r8 + 8*rbx + 48], xmm3
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_289
-	JMP  LBB2_667
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_317
+	JMP  LBB2_466
+
+LBB2_318:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xfc // and    edx, -4
+	LONG $0xc8120ff2         // movddup    xmm1, xmm0
+	LONG $0xfc728d48         // lea    rsi, [rdx - 4]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x02e9c149         // shr    r9, 2
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_473
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
 
-LBB2_290:
+LBB2_320:
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xd1280f66                           // movapd    xmm2, xmm1
+	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
+	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
+	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xd1280f66                           // movapd    xmm2, xmm1
+	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
+	LONG $0x110f4166; WORD $0xf864; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm4
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c68348                           // add    rsi, 2
+	JNE  LBB2_320
+	JMP  LBB2_474
+
+LBB2_321:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc6b60f41             // movzx    eax, r14b
-	LONG $0xc06e0f66             // movd    xmm0, eax
+	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
+	LONG $0xc26e0f66             // movd    xmm0, edx
 	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
 	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_674
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_481
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_292:
-	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
-	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+LBB2_323:
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
 	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
 	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2019             // movdqu    xmm1, oword [rcx + rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3019             // movdqu    xmm2, oword [rcx + rbx + 48]
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
 	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
 	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_292
-	JMP  LBB2_675
-
-LBB2_293:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x02ebc149             // shr    r11, 2
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_682
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_295:
-	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20d9             // movdqu    xmm1, oword [rcx + 8*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x30d9             // movdqu    xmm2, oword [rcx + 8*rbx + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_295
-	JMP  LBB2_683
-
-LBB2_296:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_690
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_298:
-	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2059             // movdqu    xmm1, oword [rcx + 2*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3059             // movdqu    xmm2, oword [rcx + 2*rbx + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_298
-	JMP  LBB2_691
-
-LBB2_299:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_698
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_301:
-	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2059             // movdqu    xmm1, oword [rcx + 2*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3059             // movdqu    xmm2, oword [rcx + 2*rbx + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm2
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_301
-	JMP  LBB2_699
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_323
+	JMP  LBB2_482
 
-LBB2_302:
+LBB2_324:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x02ebc149             // shr    r11, 2
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_706
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_304:
-	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x20d9             // movdqu    xmm1, oword [rcx + 8*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x30d9             // movdqu    xmm2, oword [rcx + 8*rbx + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm2
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_304
-	JMP  LBB2_707
-
-LBB2_305:
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x03eac149         // shr    r10, 3
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB2_714
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xdb31             // xor    ebx, ebx
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xd3b60f41             // movzx    edx, r11b
+	LONG $0xc26e0f66             // movd    xmm0, edx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_489
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_307:
-	LONG $0x9914100f               // movups    xmm2, oword [rcx + 4*rbx]
-	LONG $0x995c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rbx + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
-	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
-	LONG $0x9954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rbx + 32]
-	LONG $0x995c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rbx + 48]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x2098 // movups    oword [r8 + 4*rbx + 32], xmm2
-	LONG $0x5c110f41; WORD $0x3098 // movups    oword [r8 + 4*rbx + 48], xmm3
-	LONG $0x10c38348               // add    rbx, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB2_307
-	JMP  LBB2_715
+LBB2_326:
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_326
+	JMP  LBB2_490
 
-LBB2_308:
+LBB2_327:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc6b60f41             // movzx    eax, r14b
-	LONG $0xc06e0f66             // movd    xmm0, eax
+	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
+	LONG $0xc26e0f66             // movd    xmm0, edx
 	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
 	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_722
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_497
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_310:
-	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
-	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+LBB2_329:
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
 	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
 	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2019             // movdqu    xmm1, oword [rcx + rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3019             // movdqu    xmm2, oword [rcx + rbx + 48]
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
 	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
 	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm2
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_310
-	JMP  LBB2_723
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_329
+	JMP  LBB2_498
 
-LBB2_311:
+LBB2_330:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x03ebc149             // shr    r11, 3
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_730
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
-
-LBB2_313:
-	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
-	LONG $0x4c6f0ff3; WORD $0x2099             // movdqu    xmm1, oword [rcx + 4*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3099             // movdqu    xmm2, oword [rcx + 4*rbx + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm2
-	LONG $0x10c38348                           // add    rbx, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_313
-	JMP  LBB2_731
-
-LBB2_314:
-	WORD $0xdb31 // xor    ebx, ebx
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xd3b60f41             // movzx    edx, r11b
+	LONG $0xc26e0f66             // movd    xmm0, edx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_505
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_315:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_317
-	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+LBB2_332:
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
 	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x981c             // movdqu    oword [r8 + 4*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x9844; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm0
-
-LBB2_317:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_517
-	JMP  LBB2_318
-
-LBB2_322:
-	WORD $0xff31 // xor    edi, edi
-
-LBB2_323:
-	WORD $0xc3f6; BYTE $0x01                   // test    bl, 1
-	JE   LBB2_325
-	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xcb5c0f66                           // subpd    xmm1, xmm3
-	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
-
-LBB2_325:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_517
-	JMP  LBB2_326
-
-LBB2_330:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_331:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_333
-	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
-	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
 	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
 	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x181c             // movdqu    oword [r8 + rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x1844; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm0
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_332
+	JMP  LBB2_506
 
 LBB2_333:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_517
-	JMP  LBB2_334
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_513
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_335:
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_335
+	JMP  LBB2_514
+
+LBB2_336:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_521
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
 LBB2_338:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_339:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_341
-	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
 	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
 	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xd81c             // movdqu    oword [r8 + 8*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0xd844; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm0
-
-LBB2_341:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_517
-	JMP  LBB2_342
-
-LBB2_346:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_347:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_349
-	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
 	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x581c             // movdqu    oword [r8 + 2*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x5844; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm0
-
-LBB2_349:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_517
-	JMP  LBB2_350
-
-LBB2_354:
-	WORD $0xdb31 // xor    ebx, ebx
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_338
+	JMP  LBB2_522
 
-LBB2_355:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_357
-	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x581c             // movdqu    oword [r8 + 2*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x5844; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm0
+LBB2_339:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_529
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_357:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_517
-	JMP  LBB2_358
+LBB2_341:
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_341
+	JMP  LBB2_530
 
-LBB2_362:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_342:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_537
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_363:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_365
-	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+LBB2_344:
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
 	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
 	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xd81c             // movdqu    oword [r8 + 8*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0xd844; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm0
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_344
+	JMP  LBB2_538
 
-LBB2_365:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_517
-	JMP  LBB2_366
+LBB2_345:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_545
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_370:
-	WORD $0xff31 // xor    edi, edi
+LBB2_347:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_347
+	JMP  LBB2_546
 
-LBB2_371:
-	WORD $0xc3f6; BYTE $0x01       // test    bl, 1
-	JE   LBB2_373
-	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x5c0f; BYTE $0xcb       // subps    xmm1, xmm3
-	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
-	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
+LBB2_348:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_553
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_373:
-	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
-	JE   LBB2_517
-	JMP  LBB2_374
+LBB2_350:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_350
+	JMP  LBB2_554
 
-LBB2_378:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_351:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_561
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_379:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_381
-	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
-	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+LBB2_353:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
 	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x181c             // movdqu    oword [r8 + rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x1844; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm0
-
-LBB2_381:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_517
-	JMP  LBB2_382
-
-LBB2_386:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_387:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB2_389
-	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
 	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x981c             // movdqu    oword [r8 + 4*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x9844; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm0
-
-LBB2_389:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_517
-	JMP  LBB2_390
-
-LBB2_394:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_395:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_397
-	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
-
-LBB2_397:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_474
-	JMP  LBB2_398
-
-LBB2_402:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_403:
-	LONG $0x01c2f641                           // test    r10b, 1
-	JE   LBB2_405
-	LONG $0x14100f66; BYTE $0xd9               // movupd    xmm2, oword [rcx + 8*rbx]
-	LONG $0x5c100f66; WORD $0x10d9             // movupd    xmm3, oword [rcx + 8*rbx + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
-	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
-
-LBB2_405:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB2_474
-	JMP  LBB2_406
-
-LBB2_410:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_411:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_413
-	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
-	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
-
-LBB2_413:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_474
-	JMP  LBB2_414
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_353
+	JMP  LBB2_562
 
-LBB2_418:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_354:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_569
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_356:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_356
+	JMP  LBB2_570
 
-LBB2_419:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_421
-	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+LBB2_357:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_577
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_421:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_474
-	JMP  LBB2_422
+LBB2_359:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_359
+	JMP  LBB2_578
 
-LBB2_426:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_360:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_585
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_427:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_429
-	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+LBB2_362:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
 	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
 	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_362
+	JMP  LBB2_586
 
-LBB2_429:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_474
-	JMP  LBB2_430
+LBB2_363:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_593
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_434:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_365:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_365
+	JMP  LBB2_594
 
-LBB2_435:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_437
-	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+LBB2_366:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf0     // and    esi, -16
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x04e9c149             // shr    r9, 4
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_601
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_437:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_474
-	JMP  LBB2_438
+LBB2_368:
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_368
+	JMP  LBB2_602
 
-LBB2_442:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_369:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_609
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_443:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_445
-	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+LBB2_371:
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
 	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
 	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
-
-LBB2_445:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_474
-	JMP  LBB2_446
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_371
+	JMP  LBB2_610
 
-LBB2_450:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_372:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_617
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
 
-LBB2_451:
-	LONG $0x01c2f641               // test    r10b, 1
-	JE   LBB2_453
-	LONG $0x9914100f               // movups    xmm2, oword [rcx + 4*rbx]
-	LONG $0x995c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rbx + 16]
+LBB2_374:
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
 	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
 	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
-	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
-
-LBB2_453:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB2_474
-	JMP  LBB2_454
-
-LBB2_458:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_459:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_461
-	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
-	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
-
-LBB2_461:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_474
-	JMP  LBB2_462
-
-LBB2_466:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_467:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_469
-	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
-
-LBB2_469:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB2_470
-
-LBB2_474:
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB2_482
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB2_489
-	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB2_499
-	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB2_502
-	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JNE  LBB2_13
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_481
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_548
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_548
-
-LBB2_481:
-	WORD $0xf631 // xor    esi, esi
-
-LBB2_582:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_584
-
-LBB2_583:
-	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_583
-
-LBB2_584:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_13
-
-LBB2_585:
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_585
-	JMP  LBB2_13
-
-LBB2_482:
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB2_494
-	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB2_505
-	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB2_508
-	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
-	JNE  LBB2_13
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x02100ff2         // movsd    xmm0, qword [rdx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_488
-	LONG $0xd9048d4a         // lea    rax, [rcx + 8*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_551
-	LONG $0xd8048d4b         // lea    rax, [r8 + 8*r11]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_551
-
-LBB2_488:
-	WORD $0xf631 // xor    esi, esi
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB2_374
+	JMP  LBB2_618
 
-LBB2_590:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_592
+LBB2_375:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_625
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_591:
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	LONG $0x0c5c0ff2; BYTE $0xf1   // subsd    xmm1, qword [rcx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf00c // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB2_591
+LBB2_377:
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_377
+	JMP  LBB2_626
 
-LBB2_592:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB2_13
+LBB2_378:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_633
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
 
-LBB2_593:
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x0c5c0ff2; BYTE $0xf1               // subsd    xmm1, qword [rcx + 8*rsi]
-	LONG $0x110f41f2; WORD $0xf00c             // movsd    qword [r8 + 8*rsi], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x08f1             // subsd    xmm1, qword [rcx + 8*rsi + 8]
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x10f1             // subsd    xmm1, qword [rcx + 8*rsi + 16]
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x18f1             // subsd    xmm1, qword [rcx + 8*rsi + 24]
-	LONG $0x110f41f2; WORD $0xf04c; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB2_593
-	JMP  LBB2_13
+LBB2_380:
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
+	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
+	LONG $0x54110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
+	LONG $0x64110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm4
+	LONG $0x54110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB2_380
+	JMP  LBB2_634
 
-LBB2_489:
-	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB2_511
-	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JNE  LBB2_13
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_493
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_554
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_554
+LBB2_381:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_641
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_493:
-	WORD $0xf631 // xor    esi, esi
+LBB2_383:
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_383
+	JMP  LBB2_642
 
-LBB2_598:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_600
+LBB2_384:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_649
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
 
-LBB2_599:
-	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_599
+LBB2_386:
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB2_386
+	JMP  LBB2_650
 
-LBB2_600:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_13
+LBB2_387:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xfc     // and    esi, -4
+	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
+	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
+	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x02e9c149             // shr    r9, 2
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_657
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_601:
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_601
-	JMP  LBB2_13
+LBB2_389:
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_389
+	JMP  LBB2_658
 
-LBB2_494:
-	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB2_514
-	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JNE  LBB2_13
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_498
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_557
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_557
+LBB2_390:
+	WORD $0xc289             // mov    edx, eax
+	WORD $0xe283; BYTE $0xf8 // and    edx, -8
+	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
+	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
+	LONG $0xf8728d48         // lea    rsi, [rdx - 8]
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	LONG $0x03e9c149         // shr    r9, 3
+	LONG $0x01c18349         // add    r9, 1
+	WORD $0x8548; BYTE $0xf6 // test    rsi, rsi
+	JE   LBB2_665
+	WORD $0x894c; BYTE $0xce // mov    rsi, r9
+	LONG $0xfee68348         // and    rsi, -2
+	WORD $0xf748; BYTE $0xde // neg    rsi
+	WORD $0xff31             // xor    edi, edi
 
-LBB2_498:
-	WORD $0xf631 // xor    esi, esi
+LBB2_392:
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
+	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
+	LONG $0x54110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
+	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
+	LONG $0x64110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm4
+	LONG $0x54110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348               // add    rdi, 16
+	LONG $0x02c68348               // add    rsi, 2
+	JNE  LBB2_392
+	JMP  LBB2_666
 
-LBB2_606:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_608
+LBB2_393:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
+	LONG $0xc26e0f66             // movd    xmm0, edx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_673
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_607:
-	WORD $0x894c; BYTE $0xf0 // mov    rax, r14
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_607
+LBB2_395:
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_395
+	JMP  LBB2_674
 
-LBB2_608:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_13
+LBB2_396:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xd3b60f41             // movzx    edx, r11b
+	LONG $0xc26e0f66             // movd    xmm0, edx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_681
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_609:
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_609
-	JMP  LBB2_13
+LBB2_398:
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_398
+	JMP  LBB2_682
 
-LBB2_499:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x32b70f44         // movzx    r14d, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_501
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_560
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_560
+LBB2_399:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
+	LONG $0xc26e0f66             // movd    xmm0, edx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_689
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_501:
-	WORD $0xf631 // xor    esi, esi
+LBB2_401:
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_401
+	JMP  LBB2_690
 
-LBB2_614:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_616
+LBB2_402:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xe0     // and    esi, -32
+	LONG $0xd3b60f41             // movzx    edx, r11b
+	LONG $0xc26e0f66             // movd    xmm0, edx
+	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
+	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
+	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x05e9c149             // shr    r9, 5
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_697
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
+
+LBB2_404:
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_404
+	JMP  LBB2_698
 
-LBB2_615:
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB2_615
+LBB2_405:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_705
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_616:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_13
+LBB2_407:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_407
+	JMP  LBB2_706
 
-LBB2_617:
-	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_617
-	JMP  LBB2_13
+LBB2_408:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_713
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_502:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x32b70f44         // movzx    r14d, word [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x10f98341         // cmp    r9d, 16
-	JB   LBB2_504
-	LONG $0x51048d4a         // lea    rax, [rcx + 2*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_563
-	LONG $0x50048d4b         // lea    rax, [r8 + 2*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_563
+LBB2_410:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_410
+	JMP  LBB2_714
 
-LBB2_504:
-	WORD $0xf631 // xor    esi, esi
+LBB2_411:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_721
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_622:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_624
+LBB2_413:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_413
+	JMP  LBB2_722
 
-LBB2_623:
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
-	LONG $0x01c68348             // add    rsi, 1
-	LONG $0xffc38348             // add    rbx, -1
-	JNE  LBB2_623
+LBB2_414:
+	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
+	WORD $0xe683; BYTE $0xf8     // and    esi, -8
+	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
+	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
+	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
+	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
+	LONG $0x03e9c149             // shr    r9, 3
+	LONG $0x01c18349             // add    r9, 1
+	WORD $0x8548; BYTE $0xd2     // test    rdx, rdx
+	JE   LBB2_729
+	WORD $0x894c; BYTE $0xca     // mov    rdx, r9
+	LONG $0xfee28348             // and    rdx, -2
+	WORD $0xf748; BYTE $0xda     // neg    rdx
+	WORD $0xff31                 // xor    edi, edi
 
-LBB2_624:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_13
+LBB2_416:
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0x10c78348                           // add    rdi, 16
+	LONG $0x02c28348                           // add    rdx, 2
+	JNE  LBB2_416
+	JMP  LBB2_730
 
-LBB2_625:
-	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
-	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
-	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
-	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	WORD $0x8944; BYTE $0xf0       // mov    eax, r14d
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
-	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
-	LONG $0x04c68348               // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB2_625
-	JMP  LBB2_13
+LBB2_417:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_505:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b4c; BYTE $0x32 // mov    r14, qword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x04f98341         // cmp    r9d, 4
-	JB   LBB2_507
-	LONG $0xd1048d4a         // lea    rax, [rcx + 8*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_566
-	LONG $0xd0048d4b         // lea    rax, [r8 + 8*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_566
+LBB2_418:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_420
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 
-LBB2_507:
-	WORD $0xf631 // xor    esi, esi
+LBB2_420:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_421
 
-LBB2_630:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_632
+LBB2_425:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_631:
-	WORD $0x894c; BYTE $0xf0 // mov    rax, r14
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_631
+LBB2_426:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_428
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
 
-LBB2_632:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_13
+LBB2_428:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_429
 
-LBB2_633:
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xf0     // mov    rax, r14
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_633
-	JMP  LBB2_13
+LBB2_433:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_508:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	LONG $0x02100ff3         // movss    xmm0, dword [rdx]
-	WORD $0x8945; BYTE $0xcb // mov    r11d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_510
-	LONG $0x99048d4a         // lea    rax, [rcx + 4*r11]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_569
-	LONG $0x98048d4b         // lea    rax, [r8 + 4*r11]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_569
+LBB2_434:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_436
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 
-LBB2_510:
-	WORD $0xf631 // xor    esi, esi
+LBB2_436:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_437
 
-LBB2_638:
-	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
-	WORD $0xf748; BYTE $0xd0 // not    rax
-	WORD $0x014c; BYTE $0xd8 // add    rax, r11
-	WORD $0x894c; BYTE $0xdb // mov    rbx, r11
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_640
+LBB2_441:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_639:
-	WORD $0x280f; BYTE $0xc8       // movaps    xmm1, xmm0
-	LONG $0x0c5c0ff3; BYTE $0xb1   // subss    xmm1, dword [rcx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb00c // movss    dword [r8 + 4*rsi], xmm1
-	LONG $0x01c68348               // add    rsi, 1
-	LONG $0xffc38348               // add    rbx, -1
-	JNE  LBB2_639
+LBB2_442:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_444
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
 
-LBB2_640:
-	LONG $0x03f88348 // cmp    rax, 3
-	JB   LBB2_13
+LBB2_444:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_445
 
-LBB2_641:
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x0c5c0ff3; BYTE $0xb1               // subss    xmm1, dword [rcx + 4*rsi]
-	LONG $0x110f41f3; WORD $0xb00c             // movss    dword [r8 + 4*rsi], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x04b1             // subss    xmm1, dword [rcx + 4*rsi + 4]
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x08b1             // subss    xmm1, dword [rcx + 4*rsi + 8]
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x0cb1             // subss    xmm1, dword [rcx + 4*rsi + 12]
-	LONG $0x110f41f3; WORD $0xb04c; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm1
-	LONG $0x04c68348                           // add    rsi, 4
-	WORD $0x3949; BYTE $0xf3                   // cmp    r11, rsi
-	JNE  LBB2_641
-	JMP  LBB2_13
+LBB2_449:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_511:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8a44; BYTE $0x32 // mov    r14b, byte [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x20f98341         // cmp    r9d, 32
-	JB   LBB2_513
-	LONG $0x11048d4a         // lea    rax, [rcx + r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_572
-	LONG $0x10048d4b         // lea    rax, [r8 + r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_572
+LBB2_450:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_452
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
 
-LBB2_513:
-	WORD $0xf631 // xor    esi, esi
+LBB2_452:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_737
+	JMP  LBB2_453
 
-LBB2_646:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_648
+LBB2_457:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_647:
-	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_647
+LBB2_458:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_460
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xcb5c0f66                           // subpd    xmm1, xmm3
+	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
 
-LBB2_648:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_13
+LBB2_460:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_737
+	JMP  LBB2_461
 
-LBB2_649:
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_649
-	JMP  LBB2_13
+LBB2_465:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_514:
-	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
-	JLE  LBB2_517
-	WORD $0x8b44; BYTE $0x32 // mov    r14d, dword [rdx]
-	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
-	LONG $0x08f98341         // cmp    r9d, 8
-	JB   LBB2_516
-	LONG $0x91048d4a         // lea    rax, [rcx + 4*r10]
-	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
-	JBE  LBB2_575
-	LONG $0x90048d4b         // lea    rax, [r8 + 4*r10]
-	WORD $0x3948; BYTE $0xc8 // cmp    rax, rcx
-	JBE  LBB2_575
+LBB2_466:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_468
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
 
-LBB2_516:
-	WORD $0xf631 // xor    esi, esi
+LBB2_468:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_737
+	JMP  LBB2_469
 
-LBB2_654:
-	WORD $0x8949; BYTE $0xf3 // mov    r11, rsi
-	WORD $0xf749; BYTE $0xd3 // not    r11
-	WORD $0x014d; BYTE $0xd3 // add    r11, r10
-	WORD $0x894c; BYTE $0xd3 // mov    rbx, r10
-	LONG $0x03e38348         // and    rbx, 3
-	JE   LBB2_656
+LBB2_473:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_655:
-	WORD $0x8944; BYTE $0xf0 // mov    eax, r14d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc38348         // add    rbx, -1
-	JNE  LBB2_655
+LBB2_474:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_476
+	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
+	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xcb5c0f66                           // subpd    xmm1, xmm3
+	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
 
-LBB2_656:
-	LONG $0x03fb8349 // cmp    r11, 3
-	JB   LBB2_13
+LBB2_476:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_737
+	JMP  LBB2_477
 
-LBB2_657:
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xf0     // mov    eax, r14d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
-	LONG $0x04c68348             // add    rsi, 4
-	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB2_657
-	JMP  LBB2_13
+LBB2_481:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_517:
-	RET
+LBB2_482:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_484
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 
-LBB2_548:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x03ebc149             // shr    r11, 3
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_578
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB2_484:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_485
 
-LBB2_550:
-	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x981c             // movdqu    oword [r8 + 4*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2099             // movdqu    xmm1, oword [rcx + 4*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3099             // movdqu    xmm2, oword [rcx + 4*rbx + 48]
+LBB2_489:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_490:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_492
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
 	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x985c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm1
-	LONG $0x10c38348                           // add    rbx, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_550
-	JMP  LBB2_579
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
 
-LBB2_551:
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xfc // and    esi, -4
-	LONG $0xc8120ff2         // movddup    xmm1, xmm0
-	LONG $0xfc468d48         // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x02eac149         // shr    r10, 2
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB2_586
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xdb31             // xor    ebx, ebx
+LBB2_492:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_493
 
-LBB2_553:
-	LONG $0x14100f66; BYTE $0xd9               // movupd    xmm2, oword [rcx + 8*rbx]
-	LONG $0x5c100f66; WORD $0x10d9             // movupd    xmm3, oword [rcx + 8*rbx + 16]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xd1280f66                           // movapd    xmm2, xmm1
-	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
-	LONG $0x110f4166; WORD $0xd824             // movupd    oword [r8 + 8*rbx], xmm4
-	LONG $0x110f4166; WORD $0xd854; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm2
-	LONG $0x54100f66; WORD $0x20d9             // movupd    xmm2, oword [rcx + 8*rbx + 32]
-	LONG $0x5c100f66; WORD $0x30d9             // movupd    xmm3, oword [rcx + 8*rbx + 48]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xd1280f66                           // movapd    xmm2, xmm1
-	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
-	LONG $0x110f4166; WORD $0xd864; BYTE $0x20 // movupd    oword [r8 + 8*rbx + 32], xmm4
-	LONG $0x110f4166; WORD $0xd854; BYTE $0x30 // movupd    oword [r8 + 8*rbx + 48], xmm2
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_553
-	JMP  LBB2_587
+LBB2_497:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_554:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc6b60f41             // movzx    eax, r14b
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_594
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB2_498:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_500
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 
-LBB2_556:
-	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
-	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x181c             // movdqu    oword [r8 + rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2019             // movdqu    xmm1, oword [rcx + rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3019             // movdqu    xmm2, oword [rcx + rbx + 48]
+LBB2_500:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_501
+
+LBB2_505:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_506:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_508
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
 	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
 	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x185c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm1
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_556
-	JMP  LBB2_595
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
 
-LBB2_557:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x02ebc149             // shr    r11, 2
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_602
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB2_508:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_509
 
-LBB2_559:
-	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xd81c             // movdqu    oword [r8 + 8*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20d9             // movdqu    xmm1, oword [rcx + 8*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x30d9             // movdqu    xmm2, oword [rcx + 8*rbx + 48]
+LBB2_513:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_514:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_516
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+
+LBB2_516:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_517
+
+LBB2_521:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_522:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_524
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
 	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
 	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xd85c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm1
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_559
-	JMP  LBB2_603
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
 
-LBB2_560:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_610
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB2_524:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_525
 
-LBB2_562:
-	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x581c             // movdqu    oword [r8 + 2*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2059             // movdqu    xmm1, oword [rcx + 2*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3059             // movdqu    xmm2, oword [rcx + 2*rbx + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x585c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm1
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_562
-	JMP  LBB2_611
+LBB2_529:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_563:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700ff2; BYTE $0xe0 // pshuflw    xmm0, xmm0, 224
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf0468d48             // lea    rax, [rsi - 16]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x04ebc149             // shr    r11, 4
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_618
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB2_530:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_532
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 
-LBB2_565:
-	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x581c             // movdqu    oword [r8 + 2*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2059             // movdqu    xmm1, oword [rcx + 2*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3059             // movdqu    xmm2, oword [rcx + 2*rbx + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x585c; BYTE $0x20 // movdqu    oword [r8 + 2*rbx + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x584c; BYTE $0x30 // movdqu    oword [r8 + 2*rbx + 48], xmm1
-	LONG $0x20c38348                           // add    rbx, 32
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_565
-	JMP  LBB2_619
+LBB2_532:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_533
 
-LBB2_566:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc6 // movq    xmm0, r14
-	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
-	LONG $0xfc468d48             // lea    rax, [rsi - 4]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x02ebc149             // shr    r11, 2
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_626
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB2_537:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_568:
-	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xd81c             // movdqu    oword [r8 + 8*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x20d9             // movdqu    xmm1, oword [rcx + 8*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x30d9             // movdqu    xmm2, oword [rcx + 8*rbx + 48]
+LBB2_538:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_540
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
 	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
 	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xd85c; BYTE $0x20 // movdqu    oword [r8 + 8*rbx + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xd84c; BYTE $0x30 // movdqu    oword [r8 + 8*rbx + 48], xmm1
-	LONG $0x08c38348                           // add    rbx, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_568
-	JMP  LBB2_627
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
 
-LBB2_569:
-	WORD $0x8944; BYTE $0xde // mov    esi, r11d
-	WORD $0xe683; BYTE $0xf8 // and    esi, -8
-	WORD $0x280f; BYTE $0xc8 // movaps    xmm1, xmm0
-	LONG $0x00c8c60f         // shufps    xmm1, xmm0, 0
-	LONG $0xf8468d48         // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc2 // mov    r10, rax
-	LONG $0x03eac149         // shr    r10, 3
-	LONG $0x01c28349         // add    r10, 1
-	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB2_634
-	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
-	LONG $0xfee08348         // and    rax, -2
-	WORD $0xf748; BYTE $0xd8 // neg    rax
-	WORD $0xdb31             // xor    ebx, ebx
+LBB2_540:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_541
 
-LBB2_571:
-	LONG $0x9914100f               // movups    xmm2, oword [rcx + 4*rbx]
-	LONG $0x995c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rbx + 16]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
-	LONG $0x24110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm4
-	LONG $0x54110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm2
-	LONG $0x9954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rbx + 32]
-	LONG $0x995c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rbx + 48]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
-	LONG $0x64110f41; WORD $0x2098 // movups    oword [r8 + 4*rbx + 32], xmm4
-	LONG $0x54110f41; WORD $0x3098 // movups    oword [r8 + 4*rbx + 48], xmm2
-	LONG $0x10c38348               // add    rbx, 16
-	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB2_571
-	JMP  LBB2_635
+LBB2_545:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_572:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc6b60f41             // movzx    eax, r14b
-	LONG $0xc06e0f66             // movd    xmm0, eax
-	LONG $0xc9570f66             // xorpd    xmm1, xmm1
-	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
-	LONG $0xe0468d48             // lea    rax, [rsi - 32]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x05ebc149             // shr    r11, 5
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_642
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB2_546:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_548
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
-LBB2_574:
-	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
-	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x181c             // movdqu    oword [r8 + rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2019             // movdqu    xmm1, oword [rcx + rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3019             // movdqu    xmm2, oword [rcx + rbx + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x185c; BYTE $0x20 // movdqu    oword [r8 + rbx + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x184c; BYTE $0x30 // movdqu    oword [r8 + rbx + 48], xmm1
-	LONG $0x40c38348                           // add    rbx, 64
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_574
-	JMP  LBB2_643
+LBB2_548:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_549
 
-LBB2_575:
-	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
-	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc6 // movd    xmm0, r14d
-	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
-	LONG $0xf8468d48             // lea    rax, [rsi - 8]
-	WORD $0x8949; BYTE $0xc3     // mov    r11, rax
-	LONG $0x03ebc149             // shr    r11, 3
-	LONG $0x01c38349             // add    r11, 1
-	WORD $0x8548; BYTE $0xc0     // test    rax, rax
-	JE   LBB2_650
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xfee08348             // and    rax, -2
-	WORD $0xf748; BYTE $0xd8     // neg    rax
-	WORD $0xdb31                 // xor    ebx, ebx
+LBB2_553:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_577:
-	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x981c             // movdqu    oword [r8 + 4*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm1
-	LONG $0x4c6f0ff3; WORD $0x2099             // movdqu    xmm1, oword [rcx + 4*rbx + 32]
-	LONG $0x546f0ff3; WORD $0x3099             // movdqu    xmm2, oword [rcx + 4*rbx + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x985c; BYTE $0x20 // movdqu    oword [r8 + 4*rbx + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x984c; BYTE $0x30 // movdqu    oword [r8 + 4*rbx + 48], xmm1
-	LONG $0x10c38348                           // add    rbx, 16
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB2_577
-	JMP  LBB2_651
+LBB2_554:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_556
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
-LBB2_578:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_556:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_557
 
-LBB2_579:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_581
-	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
+LBB2_561:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_562:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_564
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
 	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x981c             // movdqu    oword [r8 + 4*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x9844; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
 
-LBB2_581:
+LBB2_564:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_13
-	JMP  LBB2_582
+	JE   LBB2_737
+	JMP  LBB2_565
 
-LBB2_586:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_569:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_587:
-	LONG $0x01c2f641                           // test    r10b, 1
-	JE   LBB2_589
-	LONG $0x14100f66; BYTE $0xd9               // movupd    xmm2, oword [rcx + 8*rbx]
-	LONG $0x5c100f66; WORD $0x10d9             // movupd    xmm3, oword [rcx + 8*rbx + 16]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xcb5c0f66                           // subpd    xmm1, xmm3
-	LONG $0x110f4166; WORD $0xd824             // movupd    oword [r8 + 8*rbx], xmm4
-	LONG $0x110f4166; WORD $0xd84c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm1
+LBB2_570:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_572
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
 
-LBB2_589:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB2_13
-	JMP  LBB2_590
+LBB2_572:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_573
 
-LBB2_594:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_577:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_595:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_597
-	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
-	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x181c             // movdqu    oword [r8 + rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x1844; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm0
+LBB2_578:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_580
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
-LBB2_597:
+LBB2_580:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_13
-	JMP  LBB2_598
+	JE   LBB2_737
+	JMP  LBB2_581
 
-LBB2_602:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_585:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_603:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_605
-	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xd81c             // movdqu    oword [r8 + 8*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0xd844; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm0
+LBB2_586:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_588
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
-LBB2_605:
+LBB2_588:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_13
-	JMP  LBB2_606
+	JE   LBB2_737
+	JMP  LBB2_589
 
-LBB2_610:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_593:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_611:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_613
-	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+LBB2_594:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_596
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
 	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
 	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
 	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x581c             // movdqu    oword [r8 + 2*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x5844; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm0
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
 
-LBB2_613:
+LBB2_596:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_13
-	JMP  LBB2_614
+	JE   LBB2_737
+	JMP  LBB2_597
 
-LBB2_618:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_601:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_619:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_621
-	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
+LBB2_602:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_604
+	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
 	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
 	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
 	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x581c             // movdqu    oword [r8 + 2*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x5844; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm0
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
 
-LBB2_621:
+LBB2_604:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_13
-	JMP  LBB2_622
+	JE   LBB2_737
+	JMP  LBB2_605
 
-LBB2_626:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_609:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_610:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_612
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+
+LBB2_612:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_613
+
+LBB2_617:
+	WORD $0xff31 // xor    edi, edi
+
+LBB2_618:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB2_620
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+
+LBB2_620:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_737
+	JMP  LBB2_621
+
+LBB2_625:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_627:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_629
-	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
+LBB2_626:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_628
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
 	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
 	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
 	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xd81c             // movdqu    oword [r8 + 8*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0xd844; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm0
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
 
-LBB2_629:
+LBB2_628:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_13
-	JMP  LBB2_630
+	JE   LBB2_737
+	JMP  LBB2_629
 
-LBB2_634:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_633:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_635:
-	LONG $0x01c2f641               // test    r10b, 1
-	JE   LBB2_637
-	LONG $0x9914100f               // movups    xmm2, oword [rcx + 4*rbx]
-	LONG $0x995c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rbx + 16]
+LBB2_634:
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB2_636
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
 	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
 	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
 	WORD $0x5c0f; BYTE $0xcb       // subps    xmm1, xmm3
-	LONG $0x24110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm4
-	LONG $0x4c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm1
+	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
+	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
 
-LBB2_637:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB2_13
-	JMP  LBB2_638
+LBB2_636:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_737
+	JMP  LBB2_637
 
-LBB2_642:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_641:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_643:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_645
-	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
-	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x181c             // movdqu    oword [r8 + rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x1844; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm0
+LBB2_642:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_644
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 
-LBB2_645:
+LBB2_644:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_13
-	JMP  LBB2_646
+	JE   LBB2_737
+	JMP  LBB2_645
+
+LBB2_649:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_650:
-	WORD $0xdb31 // xor    ebx, ebx
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB2_652
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
 
-LBB2_651:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_653
-	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x981c             // movdqu    oword [r8 + 4*rbx], xmm3
-	LONG $0x7f0f41f3; WORD $0x9844; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm0
+LBB2_652:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_737
+	JMP  LBB2_653
 
-LBB2_653:
-	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_13
-	JMP  LBB2_654
+LBB2_657:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_658:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_659:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_661
-	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_660
+	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
 
-LBB2_661:
+LBB2_660:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_3
-	JMP  LBB2_662
+	JE   LBB2_737
+	JMP  LBB2_661
+
+LBB2_665:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_666:
-	WORD $0xdb31 // xor    ebx, ebx
+	LONG $0x01c1f641               // test    r9b, 1
+	JE   LBB2_668
+	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
+	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x5c0f; BYTE $0xcb       // subps    xmm1, xmm3
+	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
+	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
 
-LBB2_667:
-	LONG $0x01c2f641                           // test    r10b, 1
-	JE   LBB2_669
-	LONG $0x14100f66; BYTE $0xd9               // movupd    xmm2, oword [rcx + 8*rbx]
-	LONG $0x5c100f66; WORD $0x10d9             // movupd    xmm3, oword [rcx + 8*rbx + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xd814             // movupd    oword [r8 + 8*rbx], xmm2
-	LONG $0x110f4166; WORD $0xd85c; BYTE $0x10 // movupd    oword [r8 + 8*rbx + 16], xmm3
+LBB2_668:
+	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
+	JE   LBB2_737
+	JMP  LBB2_669
 
-LBB2_669:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB2_3
-	JMP  LBB2_670
+LBB2_673:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_674:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_675:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_677
-	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
-	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_676
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
 	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
 	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 
-LBB2_677:
+LBB2_676:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_3
-	JMP  LBB2_678
+	JE   LBB2_737
+	JMP  LBB2_677
 
-LBB2_682:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_681:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_683:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_685
-	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+LBB2_682:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_684
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
 
-LBB2_685:
+LBB2_684:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_3
-	JMP  LBB2_686
+	JE   LBB2_737
+	JMP  LBB2_685
 
-LBB2_690:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_689:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_691:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_693
-	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+LBB2_690:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_692
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 
-LBB2_693:
+LBB2_692:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_3
-	JMP  LBB2_694
+	JE   LBB2_737
+	JMP  LBB2_693
 
-LBB2_698:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_697:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_699:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_701
-	LONG $0x0c6f0ff3; BYTE $0x59               // movdqu    xmm1, oword [rcx + 2*rbx]
-	LONG $0x546f0ff3; WORD $0x1059             // movdqu    xmm2, oword [rcx + 2*rbx + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x580c             // movdqu    oword [r8 + 2*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x5854; BYTE $0x10 // movdqu    oword [r8 + 2*rbx + 16], xmm2
+LBB2_698:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_700
+	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
 
-LBB2_701:
+LBB2_700:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_3
-	JMP  LBB2_702
+	JE   LBB2_737
+	JMP  LBB2_701
 
-LBB2_706:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_705:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_707:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_709
-	LONG $0x0c6f0ff3; BYTE $0xd9               // movdqu    xmm1, oword [rcx + 8*rbx]
-	LONG $0x546f0ff3; WORD $0x10d9             // movdqu    xmm2, oword [rcx + 8*rbx + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xd80c             // movdqu    oword [r8 + 8*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0xd854; BYTE $0x10 // movdqu    oword [r8 + 8*rbx + 16], xmm2
+LBB2_706:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_708
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 
-LBB2_709:
+LBB2_708:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_3
-	JMP  LBB2_710
+	JE   LBB2_737
+	JMP  LBB2_709
+
+LBB2_713:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_714:
-	WORD $0xdb31 // xor    ebx, ebx
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_716
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
 
-LBB2_715:
-	LONG $0x01c2f641               // test    r10b, 1
-	JE   LBB2_717
-	LONG $0x9914100f               // movups    xmm2, oword [rcx + 4*rbx]
-	LONG $0x995c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rbx + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0x98   // movups    oword [r8 + 4*rbx], xmm2
-	LONG $0x5c110f41; WORD $0x1098 // movups    oword [r8 + 4*rbx + 16], xmm3
+LBB2_716:
+	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
+	JE   LBB2_737
+	JMP  LBB2_717
 
-LBB2_717:
-	WORD $0x394c; BYTE $0xde // cmp    rsi, r11
-	JE   LBB2_3
-	JMP  LBB2_718
+LBB2_721:
+	WORD $0xff31 // xor    edi, edi
 
 LBB2_722:
-	WORD $0xdb31 // xor    ebx, ebx
-
-LBB2_723:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_725
-	LONG $0x0c6f0ff3; BYTE $0x19               // movdqu    xmm1, oword [rcx + rbx]
-	LONG $0x546f0ff3; WORD $0x1019             // movdqu    xmm2, oword [rcx + rbx + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x180c             // movdqu    oword [r8 + rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x1854; BYTE $0x10 // movdqu    oword [r8 + rbx + 16], xmm2
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_724
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 
-LBB2_725:
+LBB2_724:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_3
-	JMP  LBB2_726
+	JE   LBB2_737
+	JMP  LBB2_725
 
-LBB2_730:
-	WORD $0xdb31 // xor    ebx, ebx
+LBB2_729:
+	WORD $0xff31 // xor    edi, edi
 
-LBB2_731:
-	LONG $0x01c3f641                           // test    r11b, 1
-	JE   LBB2_733
-	LONG $0x0c6f0ff3; BYTE $0x99               // movdqu    xmm1, oword [rcx + 4*rbx]
-	LONG $0x546f0ff3; WORD $0x1099             // movdqu    xmm2, oword [rcx + 4*rbx + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x980c             // movdqu    oword [r8 + 4*rbx], xmm1
-	LONG $0x7f0f41f3; WORD $0x9854; BYTE $0x10 // movdqu    oword [r8 + 4*rbx + 16], xmm2
+LBB2_730:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB2_732
+	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
 
-LBB2_733:
+LBB2_732:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JE   LBB2_3
-	JMP  LBB2_734
+	JNE  LBB2_733
+
+LBB2_737:
+	RET

From 7c9c52e041679a9b66c43ca6ab0a06c54ef70a7e Mon Sep 17 00:00:00 2001
From: Matt Topol <zotthewizard@gmail.com>
Date: Wed, 28 Sep 2022 17:20:48 -0400
Subject: [PATCH 5/9] respond to feedback with tests and overflow handling

---
 dev/release/rat_exclude_files.txt             |    1 +
 go/arrow/compute/arithmetic.go                |   31 +-
 go/arrow/compute/arithmetic_test.go           |  227 +-
 go/arrow/compute/executor.go                  |    1 +
 go/arrow/compute/expression.go                |    2 +-
 go/arrow/compute/internal/exec/span.go        |   15 +
 go/arrow/compute/internal/exec/utils.go       |   10 +-
 .../internal/kernels/_lib/base_arithmetic.cc  |  162 +-
 .../kernels/_lib/base_arithmetic_avx2_amd64.s | 3608 +++++++--------
 .../kernels/_lib/base_arithmetic_sse4_amd64.s | 3862 ++++++++---------
 .../compute/internal/kernels/_lib/types.h     |  651 ++-
 .../internal/kernels/base_arithmetic.go       |  126 +-
 .../internal/kernels/base_arithmetic_amd64.go |   21 +-
 .../kernels/base_arithmetic_avx2_amd64.s      | 3374 +++++++-------
 .../kernels/base_arithmetic_sse4_amd64.s      | 3584 +++++++--------
 .../kernels/basic_arithmetic_noasm.go         |    8 +-
 go/arrow/compute/internal/kernels/helpers.go  |   86 +-
 go/arrow/compute/utils.go                     |    3 +-
 go/internal/bitutils/bit_block_counter.go     |   35 +
 19 files changed, 7920 insertions(+), 7887 deletions(-)

diff --git a/dev/release/rat_exclude_files.txt b/dev/release/rat_exclude_files.txt
index bdb666fd658..14d48b1a615 100644
--- a/dev/release/rat_exclude_files.txt
+++ b/dev/release/rat_exclude_files.txt
@@ -141,6 +141,7 @@ go/arrow/unionmode_string.go
 go/arrow/compute/go.sum
 go/arrow/compute/datumkind_string.go
 go/arrow/compute/funckind_string.go
+go/arrow/compute/internal/kernels/_lib/vendored/*
 go/*.tmpldata
 go/*.s
 go/parquet/internal/gen-go/parquet/GoUnusedProtection__.go
diff --git a/go/arrow/compute/arithmetic.go b/go/arrow/compute/arithmetic.go
index e157a7b270a..49c3c24160e 100644
--- a/go/arrow/compute/arithmetic.go
+++ b/go/arrow/compute/arithmetic.go
@@ -19,7 +19,6 @@ package compute
 import (
 	"context"
 	"fmt"
-	"strings"
 
 	"github.com/apache/arrow/go/v10/arrow"
 	"github.com/apache/arrow/go/v10/arrow/compute/internal/exec"
@@ -28,6 +27,8 @@ import (
 
 type arithmeticFunction struct {
 	ScalarFunction
+
+	promote decimalPromotion
 }
 
 func (fn *arithmeticFunction) checkDecimals(vals ...arrow.DataType) error {
@@ -39,17 +40,11 @@ func (fn *arithmeticFunction) checkDecimals(vals ...arrow.DataType) error {
 		return nil
 	}
 
-	op := fn.name[:strings.Index(fn.name, "_")]
-	switch op {
-	case "add", "subtract":
-		return castBinaryDecimalArgs(decPromoteAdd, vals...)
-	case "multiply":
-		return castBinaryDecimalArgs(decPromoteMultiply, vals...)
-	case "divide":
-		return castBinaryDecimalArgs(decPromoteDivide, vals...)
-	default:
+	if fn.promote == decPromoteNone {
 		return fmt.Errorf("%w: invalid decimal function: %s", arrow.ErrInvalid, fn.name)
 	}
+
+	return castBinaryDecimalArgs(fn.promote, vals...)
 }
 
 func (fn *arithmeticFunction) DispatchBest(vals ...arrow.DataType) (exec.Kernel, error) {
@@ -87,7 +82,7 @@ var (
 )
 
 func RegisterScalarArithmetic(reg FunctionRegistry) {
-	addFn := &arithmeticFunction{*NewScalarFunction("add", Binary(), addDoc)}
+	addFn := &arithmeticFunction{*NewScalarFunction("add_unchecked", Binary(), addDoc), decPromoteAdd}
 	for _, k := range kernels.GetArithmeticKernels(kernels.OpAdd) {
 		if err := addFn.AddKernel(k); err != nil {
 			panic(err)
@@ -96,7 +91,7 @@ func RegisterScalarArithmetic(reg FunctionRegistry) {
 
 	reg.AddFunction(addFn, false)
 
-	addCheckedFn := &arithmeticFunction{*NewScalarFunction("add_checked", Binary(), addDoc)}
+	addCheckedFn := &arithmeticFunction{*NewScalarFunction("add", Binary(), addDoc), decPromoteAdd}
 	for _, k := range kernels.GetArithmeticKernels(kernels.OpAddChecked) {
 		if err := addCheckedFn.AddKernel(k); err != nil {
 			panic(err)
@@ -105,7 +100,7 @@ func RegisterScalarArithmetic(reg FunctionRegistry) {
 
 	reg.AddFunction(addCheckedFn, false)
 
-	subFn := &arithmeticFunction{*NewScalarFunction("sub", Binary(), addDoc)}
+	subFn := &arithmeticFunction{*NewScalarFunction("sub_unchecked", Binary(), addDoc), decPromoteAdd}
 	for _, k := range kernels.GetArithmeticKernels(kernels.OpSub) {
 		if err := subFn.AddKernel(k); err != nil {
 			panic(err)
@@ -114,7 +109,7 @@ func RegisterScalarArithmetic(reg FunctionRegistry) {
 
 	reg.AddFunction(subFn, false)
 
-	subCheckedFn := &arithmeticFunction{*NewScalarFunction("sub_checked", Binary(), addDoc)}
+	subCheckedFn := &arithmeticFunction{*NewScalarFunction("sub", Binary(), addDoc), decPromoteAdd}
 	for _, k := range kernels.GetArithmeticKernels(kernels.OpSubChecked) {
 		if err := subCheckedFn.AddKernel(k); err != nil {
 			panic(err)
@@ -133,8 +128,8 @@ func RegisterScalarArithmetic(reg FunctionRegistry) {
 // will error on an overflow if CheckOverflow is true.
 func Add(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
 	fn := "add"
-	if opts.CheckOverflow {
-		fn = "add_checked"
+	if opts.NoCheckOverflow {
+		fn = "add_unchecked"
 	}
 	return CallFunction(ctx, fn, nil, left, right)
 }
@@ -148,8 +143,8 @@ func Add(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum,
 // will error on an overflow if CheckOverflow is true.
 func Subtract(ctx context.Context, opts ArithmeticOptions, left, right Datum) (Datum, error) {
 	fn := "sub"
-	if opts.CheckOverflow {
-		fn = "sub_checked"
+	if opts.NoCheckOverflow {
+		fn = "sub_unchecked"
 	}
 	return CallFunction(ctx, fn, nil, left, right)
 }
diff --git a/go/arrow/compute/arithmetic_test.go b/go/arrow/compute/arithmetic_test.go
index 527e63bc7af..2dee2d0700b 100644
--- a/go/arrow/compute/arithmetic_test.go
+++ b/go/arrow/compute/arithmetic_test.go
@@ -19,6 +19,7 @@ package compute_test
 import (
 	"context"
 	"fmt"
+	"math"
 	"strings"
 	"testing"
 
@@ -28,33 +29,112 @@ import (
 	"github.com/apache/arrow/go/v10/arrow/compute/internal/exec"
 	"github.com/apache/arrow/go/v10/arrow/memory"
 	"github.com/apache/arrow/go/v10/arrow/scalar"
+	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
 	"github.com/stretchr/testify/suite"
 )
 
-type binaryFunc = func(context.Context, compute.ArithmeticOptions, compute.Datum, compute.Datum) (compute.Datum, error)
+type binaryArithmeticFunc = func(context.Context, compute.ArithmeticOptions, compute.Datum, compute.Datum) (compute.Datum, error)
 
-type BinaryArithmeticSuite[T exec.NumericTypes] struct {
-	suite.Suite
+type binaryFunc = func(left, right compute.Datum) (compute.Datum, error)
 
-	mem  *memory.CheckedAllocator
-	opts compute.ArithmeticOptions
-	ctx  context.Context
+func assertScalarEquals(t *testing.T, expected, actual scalar.Scalar) {
+	assert.Truef(t, scalar.Equals(expected, actual), "expected: %s\ngot: %s", expected, actual)
 }
 
-func (BinaryArithmeticSuite[T]) DataType() arrow.DataType {
-	return exec.GetDataType[T]()
+func assertBinop(t *testing.T, fn binaryFunc, left, right, expected arrow.Array) {
+	actual, err := fn(&compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()})
+	require.NoError(t, err)
+	defer actual.Release()
+	assertDatumsEqual(t, &compute.ArrayDatum{Value: expected.Data()}, actual)
+
+	// also check (Scalar, Scalar) operations
+	for i := 0; i < expected.Len(); i++ {
+		s, err := scalar.GetScalar(expected, i)
+		require.NoError(t, err)
+		lhs, _ := scalar.GetScalar(left, i)
+		rhs, _ := scalar.GetScalar(right, i)
+
+		actual, err := fn(&compute.ScalarDatum{Value: lhs}, &compute.ScalarDatum{Value: rhs})
+		assert.NoError(t, err)
+		assertScalarEquals(t, s, actual.(*compute.ScalarDatum).Value)
+	}
 }
 
-func (b *BinaryArithmeticSuite[T]) SetupTest() {
+func assertBinopErr(t *testing.T, fn binaryFunc, left, right arrow.Array, expectedMsg string) {
+	_, err := fn(&compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{Value: right.Data()})
+	assert.ErrorIs(t, err, arrow.ErrInvalid)
+	assert.ErrorContains(t, err, expectedMsg)
+}
+
+type BinaryFuncTestSuite struct {
+	suite.Suite
+
+	mem *memory.CheckedAllocator
+	ctx context.Context
+}
+
+func (b *BinaryFuncTestSuite) SetupTest() {
 	b.mem = memory.NewCheckedAllocator(memory.DefaultAllocator)
-	b.opts.CheckOverflow = false
 	b.ctx = compute.WithAllocator(context.TODO(), b.mem)
 }
 
-func (b *BinaryArithmeticSuite[T]) TearDownTest() {
+func (b *BinaryFuncTestSuite) TearDownTest() {
 	b.mem.AssertSize(b.T(), 0)
 }
 
+type Float16BinaryFuncTestSuite struct {
+	BinaryFuncTestSuite
+}
+
+func (b *Float16BinaryFuncTestSuite) assertBinopErr(fn binaryFunc, lhs, rhs string) {
+	left, _, _ := array.FromJSON(b.mem, arrow.FixedWidthTypes.Float16, strings.NewReader(lhs), array.WithUseNumber())
+	defer left.Release()
+	right, _, _ := array.FromJSON(b.mem, arrow.FixedWidthTypes.Float16, strings.NewReader(rhs), array.WithUseNumber())
+	defer right.Release()
+
+	_, err := fn(&compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{right.Data()})
+	b.ErrorIs(err, arrow.ErrNotImplemented)
+}
+
+func (b *Float16BinaryFuncTestSuite) TestAdd() {
+	for _, overflow := range []bool{false, true} {
+		b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
+			opts := compute.ArithmeticOptions{NoCheckOverflow: overflow}
+			b.assertBinopErr(func(left, right compute.Datum) (compute.Datum, error) {
+				return compute.Add(b.ctx, opts, left, right)
+			}, `[1.5]`, `[1.5]`)
+		})
+	}
+}
+
+func (b *Float16BinaryFuncTestSuite) TestSub() {
+	for _, overflow := range []bool{false, true} {
+		b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
+			opts := compute.ArithmeticOptions{NoCheckOverflow: overflow}
+			b.assertBinopErr(func(left, right compute.Datum) (compute.Datum, error) {
+				return compute.Subtract(b.ctx, opts, left, right)
+			}, `[1.5]`, `[1.5]`)
+		})
+	}
+}
+
+type BinaryArithmeticSuite[T exec.NumericTypes] struct {
+	BinaryFuncTestSuite
+
+	opts     compute.ArithmeticOptions
+	min, max T
+}
+
+func (BinaryArithmeticSuite[T]) DataType() arrow.DataType {
+	return exec.GetDataType[T]()
+}
+
+func (b *BinaryArithmeticSuite[T]) SetupTest() {
+	b.BinaryFuncTestSuite.SetupTest()
+	b.opts.NoCheckOverflow = false
+}
+
 func (b *BinaryArithmeticSuite[T]) makeNullScalar() scalar.Scalar {
 	return scalar.MakeNullScalar(b.DataType())
 }
@@ -63,7 +143,7 @@ func (b *BinaryArithmeticSuite[T]) makeScalar(val T) scalar.Scalar {
 	return scalar.MakeScalar(val)
 }
 
-func (b *BinaryArithmeticSuite[T]) assertBinopScalars(fn binaryFunc, lhs, rhs T, expected T) {
+func (b *BinaryArithmeticSuite[T]) assertBinopScalars(fn binaryArithmeticFunc, lhs, rhs T, expected T) {
 	left, right := b.makeScalar(lhs), b.makeScalar(rhs)
 	exp := b.makeScalar(expected)
 
@@ -71,15 +151,15 @@ func (b *BinaryArithmeticSuite[T]) assertBinopScalars(fn binaryFunc, lhs, rhs T,
 	b.NoError(err)
 	sc := actual.(*compute.ScalarDatum).Value
 
-	b.Truef(scalar.Equals(exp, sc), "expected: %s\ngot: %s", exp, sc)
+	assertScalarEquals(b.T(), exp, sc)
 }
 
-func (b *BinaryArithmeticSuite[T]) assertBinopScArr(fn binaryFunc, lhs T, rhs, expected string) {
+func (b *BinaryArithmeticSuite[T]) assertBinopScalarValArr(fn binaryArithmeticFunc, lhs T, rhs, expected string) {
 	left := b.makeScalar(lhs)
 	b.assertBinopScalarArr(fn, left, rhs, expected)
 }
 
-func (b *BinaryArithmeticSuite[T]) assertBinopScalarArr(fn binaryFunc, lhs scalar.Scalar, rhs, expected string) {
+func (b *BinaryArithmeticSuite[T]) assertBinopScalarArr(fn binaryArithmeticFunc, lhs scalar.Scalar, rhs, expected string) {
 	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs))
 	defer right.Release()
 	exp, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(expected))
@@ -91,12 +171,12 @@ func (b *BinaryArithmeticSuite[T]) assertBinopScalarArr(fn binaryFunc, lhs scala
 	assertDatumsEqual(b.T(), &compute.ArrayDatum{Value: exp.Data()}, actual)
 }
 
-func (b *BinaryArithmeticSuite[T]) assertBinopArrSc(fn binaryFunc, lhs string, rhs T, expected string) {
+func (b *BinaryArithmeticSuite[T]) assertBinopArrScalarVal(fn binaryArithmeticFunc, lhs string, rhs T, expected string) {
 	right := b.makeScalar(rhs)
 	b.assertBinopArrScalar(fn, lhs, right, expected)
 }
 
-func (b *BinaryArithmeticSuite[T]) assertBinopArrScalar(fn binaryFunc, lhs string, rhs scalar.Scalar, expected string) {
+func (b *BinaryArithmeticSuite[T]) assertBinopArrScalar(fn binaryArithmeticFunc, lhs string, rhs scalar.Scalar, expected string) {
 	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs))
 	defer left.Release()
 	exp, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(expected))
@@ -108,7 +188,7 @@ func (b *BinaryArithmeticSuite[T]) assertBinopArrScalar(fn binaryFunc, lhs strin
 	assertDatumsEqual(b.T(), &compute.ArrayDatum{Value: exp.Data()}, actual)
 }
 
-func (b *BinaryArithmeticSuite[T]) assertBinopArrays(fn binaryFunc, lhs, rhs, expected string) {
+func (b *BinaryArithmeticSuite[T]) assertBinop(fn binaryArithmeticFunc, lhs, rhs, expected string) {
 	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs))
 	defer left.Release()
 	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs))
@@ -116,69 +196,57 @@ func (b *BinaryArithmeticSuite[T]) assertBinopArrays(fn binaryFunc, lhs, rhs, ex
 	exp, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(expected))
 	defer exp.Release()
 
-	b.assertBinop(fn, left, right, exp)
-}
-
-func (b *BinaryArithmeticSuite[T]) assertBinop(fn binaryFunc, left, right, expected arrow.Array) {
-	actual, err := fn(b.ctx, b.opts, &compute.ArrayDatum{Value: left.Data()}, &compute.ArrayDatum{Value: right.Data()})
-	b.Require().NoError(err)
-	defer actual.Release()
-	assertDatumsEqual(b.T(), &compute.ArrayDatum{Value: expected.Data()}, actual)
-
-	// also check (Scalar, Scalar) operations
-	for i := 0; i < expected.Len(); i++ {
-		s, err := scalar.GetScalar(expected, i)
-		b.Require().NoError(err)
-		lhs, _ := scalar.GetScalar(left, i)
-		rhs, _ := scalar.GetScalar(right, i)
-
-		actual, err := fn(b.ctx, b.opts, &compute.ScalarDatum{Value: lhs}, &compute.ScalarDatum{Value: rhs})
-		b.NoError(err)
-		b.Truef(scalar.Equals(s, actual.(*compute.ScalarDatum).Value), "expected: %s\ngot: %s", s, actual)
-	}
+	assertBinop(b.T(), func(left, right compute.Datum) (compute.Datum, error) {
+		return fn(b.ctx, b.opts, left, right)
+	}, left, right, exp)
 }
 
 func (b *BinaryArithmeticSuite[T]) setOverflowCheck(value bool) {
-	b.opts.CheckOverflow = value
+	b.opts.NoCheckOverflow = value
 }
 
-func (b *BinaryArithmeticSuite[T]) assertBinopErr(fn binaryFunc, lhs, rhs, expectedMsg string) {
-	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs))
+func (b *BinaryArithmeticSuite[T]) assertBinopErr(fn binaryArithmeticFunc, lhs, rhs, expectedMsg string) {
+	left, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(lhs), array.WithUseNumber())
 	defer left.Release()
-	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs))
+	right, _, _ := array.FromJSON(b.mem, b.DataType(), strings.NewReader(rhs), array.WithUseNumber())
 	defer right.Release()
 
-	_, err := fn(b.ctx, b.opts, &compute.ArrayDatum{left.Data()}, &compute.ArrayDatum{Value: right.Data()})
-	b.ErrorIs(err, arrow.ErrInvalid)
-	b.ErrorContains(err, expectedMsg)
+	assertBinopErr(b.T(), func(left, right compute.Datum) (compute.Datum, error) {
+		return fn(b.ctx, b.opts, left, right)
+	}, left, right, expectedMsg)
 }
 
 func (b *BinaryArithmeticSuite[T]) TestAdd() {
 	b.Run(b.DataType().String(), func() {
 		for _, overflow := range []bool{false, true} {
-			b.Run(fmt.Sprintf("overflow=%t", overflow), func() {
+			b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
 				b.setOverflowCheck(overflow)
 
-				b.assertBinopArrays(compute.Add, `[]`, `[]`, `[]`)
-				b.assertBinopArrays(compute.Add, `[3, 2, 6]`, `[1, 0, 2]`, `[4, 2, 8]`)
+				b.assertBinop(compute.Add, `[]`, `[]`, `[]`)
+				b.assertBinop(compute.Add, `[3, 2, 6]`, `[1, 0, 2]`, `[4, 2, 8]`)
 				// nulls on one side
-				b.assertBinopArrays(compute.Add, `[null, 1, null]`, `[3, 4, 5]`, `[null, 5, null]`)
-				b.assertBinopArrays(compute.Add, `[3, 4, 5]`, `[null, 1, null]`, `[null, 5, null]`)
+				b.assertBinop(compute.Add, `[null, 1, null]`, `[3, 4, 5]`, `[null, 5, null]`)
+				b.assertBinop(compute.Add, `[3, 4, 5]`, `[null, 1, null]`, `[null, 5, null]`)
 				// nulls on both sides
-				b.assertBinopArrays(compute.Add, `[null, 1, 2]`, `[3, 4, null]`, `[null, 5, null]`)
+				b.assertBinop(compute.Add, `[null, 1, 2]`, `[3, 4, null]`, `[null, 5, null]`)
 				// all nulls
-				b.assertBinopArrays(compute.Add, `[null]`, `[null]`, `[null]`)
+				b.assertBinop(compute.Add, `[null]`, `[null]`, `[null]`)
 
 				// scalar on the left
-				b.assertBinopScArr(compute.Add, 3, `[1, 2]`, `[4, 5]`)
-				b.assertBinopScArr(compute.Add, 3, `[null, 2]`, `[null, 5]`)
+				b.assertBinopScalarValArr(compute.Add, 3, `[1, 2]`, `[4, 5]`)
+				b.assertBinopScalarValArr(compute.Add, 3, `[null, 2]`, `[null, 5]`)
 				b.assertBinopScalarArr(compute.Add, b.makeNullScalar(), `[1, 2]`, `[null, null]`)
 				b.assertBinopScalarArr(compute.Add, b.makeNullScalar(), `[null, 2]`, `[null, null]`)
 				// scalar on the right
-				b.assertBinopArrSc(compute.Add, `[1, 2]`, 3, `[4, 5]`)
-				b.assertBinopArrSc(compute.Add, `[null, 2]`, 3, `[null, 5]`)
+				b.assertBinopArrScalarVal(compute.Add, `[1, 2]`, 3, `[4, 5]`)
+				b.assertBinopArrScalarVal(compute.Add, `[null, 2]`, 3, `[null, 5]`)
 				b.assertBinopArrScalar(compute.Add, `[1, 2]`, b.makeNullScalar(), `[null, null]`)
 				b.assertBinopArrScalar(compute.Add, `[null, 2]`, b.makeNullScalar(), `[null, null]`)
+
+				if !arrow.IsFloating(b.DataType().ID()) && !overflow {
+					val := fmt.Sprintf("[%v]", b.max)
+					b.assertBinopErr(compute.Add, val, val, "overflow")
+				}
 			})
 		}
 	})
@@ -187,43 +255,48 @@ func (b *BinaryArithmeticSuite[T]) TestAdd() {
 func (b *BinaryArithmeticSuite[T]) TestSub() {
 	b.Run(b.DataType().String(), func() {
 		for _, overflow := range []bool{false, true} {
-			b.Run(fmt.Sprintf("overflow=%t", overflow), func() {
+			b.Run(fmt.Sprintf("no_overflow_check=%t", overflow), func() {
 				b.setOverflowCheck(overflow)
 
-				b.assertBinopArrays(compute.Subtract, `[]`, `[]`, `[]`)
-				b.assertBinopArrays(compute.Subtract, `[3, 2, 6]`, `[1, 0, 2]`, `[2, 2, 4]`)
+				b.assertBinop(compute.Subtract, `[]`, `[]`, `[]`)
+				b.assertBinop(compute.Subtract, `[3, 2, 6]`, `[1, 0, 2]`, `[2, 2, 4]`)
 				// nulls on one side
-				b.assertBinopArrays(compute.Subtract, `[null, 4, null]`, `[2, 1, 0]`, `[null, 3, null]`)
-				b.assertBinopArrays(compute.Subtract, `[3, 4, 5]`, `[null, 1, null]`, `[null, 3, null]`)
+				b.assertBinop(compute.Subtract, `[null, 4, null]`, `[2, 1, 0]`, `[null, 3, null]`)
+				b.assertBinop(compute.Subtract, `[3, 4, 5]`, `[null, 1, null]`, `[null, 3, null]`)
 				// nulls on both sides
-				b.assertBinopArrays(compute.Subtract, `[null, 4, 3]`, `[2, 1, null]`, `[null, 3, null]`)
+				b.assertBinop(compute.Subtract, `[null, 4, 3]`, `[2, 1, null]`, `[null, 3, null]`)
 				// all nulls
-				b.assertBinopArrays(compute.Subtract, `[null]`, `[null]`, `[null]`)
+				b.assertBinop(compute.Subtract, `[null]`, `[null]`, `[null]`)
 
 				// scalar on the left
-				b.assertBinopScArr(compute.Subtract, 3, `[1, 2]`, `[2, 1]`)
-				b.assertBinopScArr(compute.Subtract, 3, `[null, 2]`, `[null, 1]`)
+				b.assertBinopScalarValArr(compute.Subtract, 3, `[1, 2]`, `[2, 1]`)
+				b.assertBinopScalarValArr(compute.Subtract, 3, `[null, 2]`, `[null, 1]`)
 				b.assertBinopScalarArr(compute.Subtract, b.makeNullScalar(), `[1, 2]`, `[null, null]`)
 				b.assertBinopScalarArr(compute.Subtract, b.makeNullScalar(), `[null, 2]`, `[null, null]`)
 				// scalar on the right
-				b.assertBinopArrSc(compute.Subtract, `[4, 5]`, 3, `[1, 2]`)
-				b.assertBinopArrSc(compute.Subtract, `[null, 5]`, 3, `[null, 2]`)
+				b.assertBinopArrScalarVal(compute.Subtract, `[4, 5]`, 3, `[1, 2]`)
+				b.assertBinopArrScalarVal(compute.Subtract, `[null, 5]`, 3, `[null, 2]`)
 				b.assertBinopArrScalar(compute.Subtract, `[1, 2]`, b.makeNullScalar(), `[null, null]`)
 				b.assertBinopArrScalar(compute.Subtract, `[null, 2]`, b.makeNullScalar(), `[null, null]`)
+
+				if !arrow.IsFloating(b.DataType().ID()) && !overflow {
+					b.assertBinopErr(compute.Subtract, fmt.Sprintf("[%v]", b.min), fmt.Sprintf("[%v]", b.max), "overflow")
+				}
 			})
 		}
 	})
 }
 
 func TestBinaryArithmetic(t *testing.T) {
-	suite.Run(t, new(BinaryArithmeticSuite[int8]))
-	suite.Run(t, new(BinaryArithmeticSuite[uint8]))
-	suite.Run(t, new(BinaryArithmeticSuite[int16]))
-	suite.Run(t, new(BinaryArithmeticSuite[uint16]))
-	suite.Run(t, new(BinaryArithmeticSuite[int32]))
-	suite.Run(t, new(BinaryArithmeticSuite[uint32]))
-	suite.Run(t, new(BinaryArithmeticSuite[int64]))
-	suite.Run(t, new(BinaryArithmeticSuite[uint64]))
-	suite.Run(t, new(BinaryArithmeticSuite[float32]))
-	suite.Run(t, new(BinaryArithmeticSuite[float64]))
+	suite.Run(t, &BinaryArithmeticSuite[int8]{min: math.MinInt8, max: math.MaxInt8})
+	suite.Run(t, &BinaryArithmeticSuite[uint8]{min: 0, max: math.MaxUint8})
+	suite.Run(t, &BinaryArithmeticSuite[int16]{min: math.MinInt16, max: math.MaxInt16})
+	suite.Run(t, &BinaryArithmeticSuite[uint16]{min: 0, max: math.MaxUint16})
+	suite.Run(t, &BinaryArithmeticSuite[int32]{min: math.MinInt32, max: math.MaxInt32})
+	suite.Run(t, &BinaryArithmeticSuite[uint32]{min: 0, max: math.MaxUint32})
+	suite.Run(t, &BinaryArithmeticSuite[int64]{min: math.MinInt64, max: math.MaxInt64})
+	suite.Run(t, &BinaryArithmeticSuite[uint64]{min: 0, max: math.MaxUint64})
+	suite.Run(t, &BinaryArithmeticSuite[float32]{min: -math.MaxFloat32, max: math.MaxFloat32})
+	suite.Run(t, &BinaryArithmeticSuite[float64]{min: -math.MaxFloat64, max: math.MaxFloat64})
+	suite.Run(t, new(Float16BinaryFuncTestSuite))
 }
diff --git a/go/arrow/compute/executor.go b/go/arrow/compute/executor.go
index 8098f2f8edd..6d19dee2184 100644
--- a/go/arrow/compute/executor.go
+++ b/go/arrow/compute/executor.go
@@ -596,6 +596,7 @@ func (s *scalarExecutor) executeSpans(data chan<- Datum) (err error) {
 			resultOffset = nextOffset
 		}
 		if err != nil {
+			prealloc.Release()
 			return
 		}
 
diff --git a/go/arrow/compute/expression.go b/go/arrow/compute/expression.go
index 644de5cf5c9..aa6e3661afa 100644
--- a/go/arrow/compute/expression.go
+++ b/go/arrow/compute/expression.go
@@ -485,7 +485,7 @@ const (
 )
 
 type ArithmeticOptions struct {
-	CheckOverflow bool `compute:"check_overflow"`
+	NoCheckOverflow bool `compute:"check_overflow"`
 }
 
 func (ArithmeticOptions) TypeName() string { return "ArithmeticOptions" }
diff --git a/go/arrow/compute/internal/exec/span.go b/go/arrow/compute/internal/exec/span.go
index ca6caf436b9..f0f869b4aaf 100644
--- a/go/arrow/compute/internal/exec/span.go
+++ b/go/arrow/compute/internal/exec/span.go
@@ -86,6 +86,21 @@ type ArraySpan struct {
 	Children []ArraySpan
 }
 
+// if an error is encountered, call Release on a preallocated span
+// to ensure it releases any self-allocated buffers, it will
+// not call release on buffers it doesn't own (SelfAlloc != true)
+func (a *ArraySpan) Release() {
+	for _, c := range a.Children {
+		c.Release()
+	}
+
+	for _, b := range a.Buffers {
+		if b.SelfAlloc {
+			b.Owner.Release()
+		}
+	}
+}
+
 func (a *ArraySpan) MayHaveNulls() bool {
 	return atomic.LoadInt64(&a.Nulls) != 0 && a.Buffers[0].Buf != nil
 }
diff --git a/go/arrow/compute/internal/exec/utils.go b/go/arrow/compute/internal/exec/utils.go
index 903748a1176..57fe3183c6e 100644
--- a/go/arrow/compute/internal/exec/utils.go
+++ b/go/arrow/compute/internal/exec/utils.go
@@ -172,13 +172,21 @@ var typMap = map[reflect.Type]arrow.DataType{
 	reflect.TypeOf(arrow.Date32(0)): arrow.FixedWidthTypes.Date32,
 	reflect.TypeOf(arrow.Date64(0)): arrow.FixedWidthTypes.Date64,
 	reflect.TypeOf(true):            arrow.FixedWidthTypes.Boolean,
+	reflect.TypeOf(float16.Num{}):   arrow.FixedWidthTypes.Float16,
 }
 
-func GetDataType[T NumericTypes | bool | string]() arrow.DataType {
+// GetDataType returns the appropriate arrow.DataType for the given type T
+// only for non-parametric types. This uses a map and reflection internally
+// so don't call this in a tight loop, instead call this once and then use
+// a closure with the result.
+func GetDataType[T NumericTypes | bool | string | float16.Num]() arrow.DataType {
 	var z T
 	return typMap[reflect.TypeOf(z)]
 }
 
+// GetType returns the appropriate arrow.Type type T, only for non-parameteric
+// types. This uses a map and reflection internally so don't call this in
+// a tight loop, instead call it once and then use a closure with the result.
 func GetType[T NumericTypes | bool | string]() arrow.Type {
 	var z T
 	return typMap[reflect.TypeOf(z)].ID()
diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc b/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
index 0596e2cbcba..dc2234bfb35 100644
--- a/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
+++ b/go/arrow/compute/internal/kernels/_lib/base_arithmetic.cc
@@ -19,31 +19,6 @@
 #include "types.h"
 #include "vendored/safe-math.h"
 
-// Define functions AddWithOverflow, SubtractWithOverflow, MultiplyWithOverflow
-// with the signature `bool(T u, T v, T* out)` where T is an integer type.
-// On overflow, these functions return true.  Otherwise, false is returned
-// and `out` is updated with the result of the operation.
-
-#define OP_WITH_OVERFLOW(_func_name, _psnip_op, _type, _psnip_type) \
-  static inline bool _func_name(_type u, _type v, _type* out) {     \
-    return !psnip_safe_##_psnip_type##_##_psnip_op(out, u, v);      \
-  }
-
-#define OPS_WITH_OVERFLOW(_func_name, _psnip_op)            \
-  OP_WITH_OVERFLOW(_func_name, _psnip_op, int8_t, int8)     \
-  OP_WITH_OVERFLOW(_func_name, _psnip_op, int16_t, int16)   \
-  OP_WITH_OVERFLOW(_func_name, _psnip_op, int32_t, int32)   \
-  OP_WITH_OVERFLOW(_func_name, _psnip_op, int64_t, int64)   \
-  OP_WITH_OVERFLOW(_func_name, _psnip_op, uint8_t, uint8)   \
-  OP_WITH_OVERFLOW(_func_name, _psnip_op, uint16_t, uint16) \
-  OP_WITH_OVERFLOW(_func_name, _psnip_op, uint32_t, uint32) \
-  OP_WITH_OVERFLOW(_func_name, _psnip_op, uint64_t, uint64)
-
-OPS_WITH_OVERFLOW(AddWithOverflow, add)
-OPS_WITH_OVERFLOW(SubtractWithOverflow, sub)
-OPS_WITH_OVERFLOW(MultiplyWithOverflow, mul)
-OPS_WITH_OVERFLOW(DivideWithOverflow, div)
-
 // Corresponds to equivalent ArithmeticOp enum in base_arithmetic.go
 // for passing across which operation to perform. This allows simpler
 // implementation at the cost of having to pass the extra int8 and
@@ -54,86 +29,48 @@ OPS_WITH_OVERFLOW(DivideWithOverflow, div)
 // worth the cost.
 enum class optype : int8_t {
     ADD,
-    ADD_CHECKED,
     SUB, 
-    SUB_CHECKED,
-};
-
-template <typename T>
-using is_unsigned_integer_value = bool_constant<is_integral_v<T> && is_unsigned_v<T>>;
-
-template <typename T>
-using is_signed_integer_value = bool_constant<is_integral_v<T> && is_signed_v<T>>;
-
-template <typename T, typename R = T>
-using enable_if_signed_integer_t = enable_if_t<is_signed_integer_value<T>::value, R>;
 
-template <typename T, typename R = T>
-using enable_if_unsigned_integer_t = enable_if_t<is_unsigned_integer_value<T>::value, R>;
-
-template <typename T, typename R = T>
-using enable_if_integer_t = enable_if_t<
-    is_signed_integer_value<T>::value || is_unsigned_integer_value<T>::value, R>;
-
-template <typename T, typename R = T>
-using enable_if_floating_t = enable_if_t<is_floating_point_v<T>, R>;
+    // this impl doesn't actually perform any overflow checks as we need
+    // to only run overflow checks on non-null entries
+    ADD_CHECKED,
+    SUB_CHECKED, 
+};
 
 struct Add {
     template <typename T, typename Arg0, typename Arg1>
-    static constexpr enable_if_floating_t<T> Call(Arg0 left, Arg1 right, bool*) {
-        return left + right;
-    }
-
-    template <typename T, typename Arg0, typename Arg1>
-    static constexpr enable_if_integer_t<T> Call(Arg0 left, Arg1 right, bool*) {
-        return left + right;
-    }
+    static constexpr T Call(Arg0 left, Arg1 right) {
+        if constexpr (is_arithmetic_v<T>)
+            return left + right;
+    }    
 };
 
 struct Sub {
     template <typename T, typename Arg0, typename Arg1>
-    static constexpr enable_if_floating_t<T> Call(Arg0 left, Arg1 right, bool*) {
-        return left - right;
-    }
-
-    template <typename T, typename Arg0, typename Arg1>
-    static constexpr enable_if_integer_t<T> Call(Arg0 left, Arg1 right, bool*) {
-        return left - right;
+    static constexpr T Call(Arg0 left, Arg1 right) {
+        if constexpr (is_arithmetic_v<T>)
+            return left - right;
     }
 };
 
 struct AddChecked {
     template <typename T, typename Arg0, typename Arg1>
-    static constexpr enable_if_floating_t<T> Call(Arg0 left, Arg1 right, bool*) {
-        return left + right;
-    }
-
-    template <typename T, typename Arg0, typename Arg1>
-    static constexpr enable_if_integer_t<T> Call(Arg0 left, Arg1 right, bool* failure) {
+    static constexpr T Call(Arg0 left, Arg1 right) {
         static_assert(is_same<T, Arg0>::value && is_same<T, Arg1>::value, "");
-        T result = 0;
-        if (AddWithOverflow(left, right, &result)) {
-            *failure = true;
+        if constexpr(is_arithmetic_v<T>) {
+            return left + right;
         }
-        return result;
     }    
 };
 
 
-struct SubChecked {
+struct SubChecked {    
     template <typename T, typename Arg0, typename Arg1>
-    static constexpr enable_if_floating_t<T> Call(Arg0 left, Arg1 right, bool*) {
-        return left - right;
-    }
-
-    template <typename T, typename Arg0, typename Arg1>
-    static constexpr enable_if_integer_t<T> Call(Arg0 left, Arg1 right, bool* failure) {
+    static constexpr T Call(Arg0 left, Arg1 right) {
         static_assert(is_same<T, Arg0>::value && is_same<T, Arg1>::value, "");
-        T result = 0;
-        if (SubtractWithOverflow(left, right, &result)) {
-            *failure = true;
+        if constexpr(is_arithmetic_v<T>) {            
+            return left - right;
         }
-        return result;
     }    
 };
 
@@ -143,11 +80,10 @@ struct arithmetic_op_arr_arr_impl {
         const T* left = reinterpret_cast<const T*>(in_left);
         const T* right = reinterpret_cast<const T*>(in_right);
         T* output = reinterpret_cast<T*>(out);
-
-        bool failure = false;
+        
         for (int i = 0; i < len; ++i) {
-            output[i] = Op::template Call<T, T, T>(left[i], right[i], &failure);
-        }
+            output[i] = Op::template Call<T, T, T>(left[i], right[i]);
+        }        
     }
 };
 
@@ -157,11 +93,10 @@ struct arithmetic_op_arr_scalar_impl {
         const T* left = reinterpret_cast<const T*>(in_left);
         const T right = *reinterpret_cast<const T*>(scalar_right);
         T* output = reinterpret_cast<T*>(out);
-
-        bool failure = false;
+        
         for (int i = 0; i < len; ++i) {
-            output[i] = Op::template Call<T, T, T>(left[i], right, &failure);
-        }
+            output[i] = Op::template Call<T, T, T>(left[i], right);
+        }        
     }
 };
 
@@ -171,10 +106,9 @@ struct arithmetic_op_scalar_arr_impl {
         const T left = *reinterpret_cast<const T*>(scalar_left);
         const T* right = reinterpret_cast<const T*>(in_right);
         T* output = reinterpret_cast<T*>(out);
-
-        bool failure = false;
+        
         for (int i = 0; i < len; ++i) {
-            output[i] = Op::template Call<T, T, T>(left, right[i], &failure);
+            output[i] = Op::template Call<T, T, T>(left, right[i]);
         }
     }
 };
@@ -186,35 +120,25 @@ static inline void arithmetic_op(const int type, const void* in_left, const void
 
     switch (intype) {
     case arrtype::UINT8:
-        Impl<uint8_t, Op>::exec(in_left, in_right, output, len);
-        break;
+        return Impl<uint8_t, Op>::exec(in_left, in_right, output, len);        
     case arrtype::INT8:
-        Impl<int8_t, Op>::exec(in_left, in_right, output, len);
-        break;
+        return Impl<int8_t, Op>::exec(in_left, in_right, output, len);        
     case arrtype::UINT16:
-        Impl<uint16_t, Op>::exec(in_left, in_right, output, len);
-        break;
+        return Impl<uint16_t, Op>::exec(in_left, in_right, output, len);        
     case arrtype::INT16:
-        Impl<int16_t, Op>::exec(in_left, in_right, output, len);
-        break;
+        return Impl<int16_t, Op>::exec(in_left, in_right, output, len);        
     case arrtype::UINT32:
-        Impl<uint32_t, Op>::exec(in_left, in_right, output, len);
-        break;
+        return Impl<uint32_t, Op>::exec(in_left, in_right, output, len);        
     case arrtype::INT32:
-        Impl<int32_t, Op>::exec(in_left, in_right, output, len);
-        break;
+        return Impl<int32_t, Op>::exec(in_left, in_right, output, len);        
     case arrtype::UINT64:
-        Impl<uint64_t, Op>::exec(in_left, in_right, output, len);
-        break;
+        return Impl<uint64_t, Op>::exec(in_left, in_right, output, len);        
     case arrtype::INT64:
-        Impl<int64_t, Op>::exec(in_left, in_right, output, len);
-        break;
+        return Impl<int64_t, Op>::exec(in_left, in_right, output, len);        
     case arrtype::FLOAT32:
-        Impl<float, Op>::exec(in_left, in_right, output, len);
-        break;
+        return Impl<float, Op>::exec(in_left, in_right, output, len);        
     case arrtype::FLOAT64:
-        Impl<double, Op>::exec(in_left, in_right, output, len);
-        break;
+        return Impl<double, Op>::exec(in_left, in_right, output, len);        
     default:
         break;
     }
@@ -226,17 +150,13 @@ static inline void arithmetic_impl(const int type, const int8_t op, const void*
 
     switch (opt) {
     case optype::ADD:
-        arithmetic_op<Add, Impl>(type, in_left, in_right, out, len);
-        break;
+        return arithmetic_op<Add, Impl>(type, in_left, in_right, out, len);        
     case optype::ADD_CHECKED:
-        arithmetic_op<AddChecked, Impl>(type, in_left, in_right, out, len);
-        break;
+        return arithmetic_op<AddChecked, Impl>(type, in_left, in_right, out, len);        
     case optype::SUB:
-        arithmetic_op<Sub, Impl>(type, in_left, in_right, out, len);
-        break;
+        return arithmetic_op<Sub, Impl>(type, in_left, in_right, out, len);        
     case optype::SUB_CHECKED:
-        arithmetic_op<SubChecked, Impl>(type, in_left, in_right, out, len);
-        break;
+        return arithmetic_op<SubChecked, Impl>(type, in_left, in_right, out, len);        
     default:
         break;
     }
diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s
index c8fc9055d51..76355712b8a 100644
--- a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s
+++ b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_avx2_amd64.s
@@ -19,32 +19,32 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	jne	.LBB0_537
 # %bb.3:
 	cmp	edi, 6
-	jg	.LBB0_158
+	jg	.LBB0_291
 # %bb.4:
 	cmp	edi, 3
 	jle	.LBB0_5
-# %bb.152:
+# %bb.285:
 	cmp	edi, 4
-	je	.LBB0_191
-# %bb.153:
+	je	.LBB0_324
+# %bb.286:
 	cmp	edi, 5
-	je	.LBB0_203
-# %bb.154:
+	je	.LBB0_336
+# %bb.287:
 	cmp	edi, 6
 	jne	.LBB0_537
-# %bb.155:
+# %bb.288:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.156:
+# %bb.289:
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jae	.LBB0_215
-# %bb.157:
+	jae	.LBB0_348
+# %bb.290:
 	xor	esi, esi
-	jmp	.LBB0_220
+	jmp	.LBB0_353
 .LBB0_10:
 	cmp	sil, 2
-	je	.LBB0_278
+	je	.LBB0_152
 # %bb.11:
 	cmp	sil, 3
 	jne	.LBB0_537
@@ -98,53 +98,53 @@ arithmetic_avx2:                        # @arithmetic_avx2
 # %bb.31:
 	xor	esi, esi
 	jmp	.LBB0_94
-.LBB0_278:
+.LBB0_152:
 	cmp	edi, 6
-	jg	.LBB0_291
-# %bb.279:
+	jg	.LBB0_165
+# %bb.153:
 	cmp	edi, 3
-	jle	.LBB0_280
-# %bb.285:
+	jle	.LBB0_154
+# %bb.159:
 	cmp	edi, 4
-	je	.LBB0_324
-# %bb.286:
+	je	.LBB0_198
+# %bb.160:
 	cmp	edi, 5
-	je	.LBB0_336
-# %bb.287:
+	je	.LBB0_210
+# %bb.161:
 	cmp	edi, 6
 	jne	.LBB0_537
-# %bb.288:
+# %bb.162:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.289:
+# %bb.163:
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jae	.LBB0_348
-# %bb.290:
+	jae	.LBB0_222
+# %bb.164:
 	xor	esi, esi
-	jmp	.LBB0_353
-.LBB0_158:
+	jmp	.LBB0_227
+.LBB0_291:
 	cmp	edi, 8
-	jle	.LBB0_159
-# %bb.164:
+	jle	.LBB0_292
+# %bb.297:
 	cmp	edi, 9
-	je	.LBB0_245
-# %bb.165:
+	je	.LBB0_378
+# %bb.298:
 	cmp	edi, 11
-	je	.LBB0_257
-# %bb.166:
+	je	.LBB0_390
+# %bb.299:
 	cmp	edi, 12
 	jne	.LBB0_537
-# %bb.167:
+# %bb.300:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.168:
+# %bb.301:
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jae	.LBB0_269
-# %bb.169:
+	jae	.LBB0_402
+# %bb.302:
 	xor	esi, esi
-	jmp	.LBB0_274
+	jmp	.LBB0_407
 .LBB0_417:
 	cmp	edi, 8
 	jle	.LBB0_418
@@ -189,31 +189,31 @@ arithmetic_avx2:                        # @arithmetic_avx2
 # %bb.43:
 	xor	esi, esi
 	jmp	.LBB0_148
-.LBB0_291:
+.LBB0_165:
 	cmp	edi, 8
-	jle	.LBB0_292
-# %bb.297:
+	jle	.LBB0_166
+# %bb.171:
 	cmp	edi, 9
-	je	.LBB0_378
-# %bb.298:
+	je	.LBB0_252
+# %bb.172:
 	cmp	edi, 11
-	je	.LBB0_390
-# %bb.299:
+	je	.LBB0_264
+# %bb.173:
 	cmp	edi, 12
 	jne	.LBB0_537
-# %bb.300:
+# %bb.174:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.301:
+# %bb.175:
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jae	.LBB0_402
-# %bb.302:
+	jae	.LBB0_276
+# %bb.176:
 	xor	esi, esi
-	jmp	.LBB0_407
+	jmp	.LBB0_281
 .LBB0_5:
 	cmp	edi, 2
-	je	.LBB0_170
+	je	.LBB0_303
 # %bb.6:
 	cmp	edi, 3
 	jne	.LBB0_537
@@ -223,10 +223,10 @@ arithmetic_avx2:                        # @arithmetic_avx2
 # %bb.8:
 	mov	r10d, r9d
 	cmp	r9d, 128
-	jae	.LBB0_182
+	jae	.LBB0_315
 # %bb.9:
 	xor	esi, esi
-	jmp	.LBB0_187
+	jmp	.LBB0_320
 .LBB0_14:
 	cmp	edi, 2
 	je	.LBB0_429
@@ -259,38 +259,38 @@ arithmetic_avx2:                        # @arithmetic_avx2
 # %bb.25:
 	xor	esi, esi
 	jmp	.LBB0_61
-.LBB0_280:
+.LBB0_154:
 	cmp	edi, 2
-	je	.LBB0_303
-# %bb.281:
+	je	.LBB0_177
+# %bb.155:
 	cmp	edi, 3
 	jne	.LBB0_537
-# %bb.282:
+# %bb.156:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.283:
+# %bb.157:
 	mov	r10d, r9d
 	cmp	r9d, 128
-	jae	.LBB0_315
-# %bb.284:
+	jae	.LBB0_189
+# %bb.158:
 	xor	esi, esi
-	jmp	.LBB0_320
-.LBB0_159:
+	jmp	.LBB0_194
+.LBB0_292:
 	cmp	edi, 7
-	je	.LBB0_224
-# %bb.160:
+	je	.LBB0_357
+# %bb.293:
 	cmp	edi, 8
 	jne	.LBB0_537
-# %bb.161:
+# %bb.294:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.162:
+# %bb.295:
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jae	.LBB0_236
-# %bb.163:
+	jae	.LBB0_369
+# %bb.296:
 	xor	esi, esi
-	jmp	.LBB0_241
+	jmp	.LBB0_374
 .LBB0_418:
 	cmp	edi, 7
 	je	.LBB0_483
@@ -323,42 +323,42 @@ arithmetic_avx2:                        # @arithmetic_avx2
 # %bb.37:
 	xor	esi, esi
 	jmp	.LBB0_115
-.LBB0_292:
+.LBB0_166:
 	cmp	edi, 7
-	je	.LBB0_357
-# %bb.293:
+	je	.LBB0_231
+# %bb.167:
 	cmp	edi, 8
 	jne	.LBB0_537
-# %bb.294:
+# %bb.168:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.295:
+# %bb.169:
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jae	.LBB0_369
-# %bb.296:
+	jae	.LBB0_243
+# %bb.170:
 	xor	esi, esi
-	jmp	.LBB0_374
-.LBB0_191:
+	jmp	.LBB0_248
+.LBB0_324:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.192:
+# %bb.325:
 	mov	r10d, r9d
 	cmp	r9d, 64
-	jae	.LBB0_194
-# %bb.193:
+	jae	.LBB0_327
+# %bb.326:
 	xor	esi, esi
-	jmp	.LBB0_199
-.LBB0_203:
+	jmp	.LBB0_332
+.LBB0_336:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.204:
+# %bb.337:
 	mov	r10d, r9d
 	cmp	r9d, 64
-	jae	.LBB0_206
-# %bb.205:
+	jae	.LBB0_339
+# %bb.338:
 	xor	esi, esi
-	jmp	.LBB0_211
+	jmp	.LBB0_344
 .LBB0_450:
 	test	r9d, r9d
 	jle	.LBB0_537
@@ -399,46 +399,46 @@ arithmetic_avx2:                        # @arithmetic_avx2
 # %bb.79:
 	xor	esi, esi
 	jmp	.LBB0_85
-.LBB0_324:
+.LBB0_198:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.325:
+# %bb.199:
 	mov	r10d, r9d
 	cmp	r9d, 64
-	jae	.LBB0_327
-# %bb.326:
+	jae	.LBB0_201
+# %bb.200:
 	xor	esi, esi
-	jmp	.LBB0_332
-.LBB0_336:
+	jmp	.LBB0_206
+.LBB0_210:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.337:
+# %bb.211:
 	mov	r10d, r9d
 	cmp	r9d, 64
-	jae	.LBB0_339
-# %bb.338:
+	jae	.LBB0_213
+# %bb.212:
 	xor	esi, esi
-	jmp	.LBB0_344
-.LBB0_245:
+	jmp	.LBB0_218
+.LBB0_378:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.246:
+# %bb.379:
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jae	.LBB0_248
-# %bb.247:
+	jae	.LBB0_381
+# %bb.380:
 	xor	esi, esi
-	jmp	.LBB0_253
-.LBB0_257:
+	jmp	.LBB0_386
+.LBB0_390:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.258:
+# %bb.391:
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jae	.LBB0_260
-# %bb.259:
+	jae	.LBB0_393
+# %bb.392:
 	xor	esi, esi
-	jmp	.LBB0_265
+	jmp	.LBB0_398
 .LBB0_504:
 	test	r9d, r9d
 	jle	.LBB0_537
@@ -479,36 +479,36 @@ arithmetic_avx2:                        # @arithmetic_avx2
 # %bb.133:
 	xor	esi, esi
 	jmp	.LBB0_139
-.LBB0_378:
+.LBB0_252:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.379:
+# %bb.253:
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jae	.LBB0_381
-# %bb.380:
+	jae	.LBB0_255
+# %bb.254:
 	xor	esi, esi
-	jmp	.LBB0_386
-.LBB0_390:
+	jmp	.LBB0_260
+.LBB0_264:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.391:
+# %bb.265:
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jae	.LBB0_393
-# %bb.392:
+	jae	.LBB0_267
+# %bb.266:
 	xor	esi, esi
-	jmp	.LBB0_398
-.LBB0_170:
+	jmp	.LBB0_272
+.LBB0_303:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.171:
+# %bb.304:
 	mov	r10d, r9d
 	cmp	r9d, 128
-	jae	.LBB0_173
-# %bb.172:
+	jae	.LBB0_306
+# %bb.305:
 	xor	esi, esi
-	jmp	.LBB0_178
+	jmp	.LBB0_311
 .LBB0_429:
 	test	r9d, r9d
 	jle	.LBB0_537
@@ -529,26 +529,26 @@ arithmetic_avx2:                        # @arithmetic_avx2
 # %bb.46:
 	xor	esi, esi
 	jmp	.LBB0_52
-.LBB0_303:
+.LBB0_177:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.304:
+# %bb.178:
 	mov	r10d, r9d
 	cmp	r9d, 128
-	jae	.LBB0_306
-# %bb.305:
+	jae	.LBB0_180
+# %bb.179:
 	xor	esi, esi
-	jmp	.LBB0_311
-.LBB0_224:
+	jmp	.LBB0_185
+.LBB0_357:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.225:
+# %bb.358:
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jae	.LBB0_227
-# %bb.226:
+	jae	.LBB0_360
+# %bb.359:
 	xor	esi, esi
-	jmp	.LBB0_232
+	jmp	.LBB0_365
 .LBB0_483:
 	test	r9d, r9d
 	jle	.LBB0_537
@@ -569,17 +569,17 @@ arithmetic_avx2:                        # @arithmetic_avx2
 # %bb.100:
 	xor	esi, esi
 	jmp	.LBB0_106
-.LBB0_357:
+.LBB0_231:
 	test	r9d, r9d
 	jle	.LBB0_537
-# %bb.358:
+# %bb.232:
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jae	.LBB0_360
-# %bb.359:
+	jae	.LBB0_234
+# %bb.233:
 	xor	esi, esi
-	jmp	.LBB0_365
-.LBB0_215:
+	jmp	.LBB0_239
+.LBB0_348:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
@@ -593,66 +593,66 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_220
-# %bb.216:
+	jne	.LBB0_353
+# %bb.349:
 	and	al, dil
-	jne	.LBB0_220
-# %bb.217:
+	jne	.LBB0_353
+# %bb.350:
 	mov	esi, r10d
 	and	esi, -32
 	xor	edi, edi
-.LBB0_218:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+.LBB0_351:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
 	add	rdi, 32
 	cmp	rsi, rdi
-	jne	.LBB0_218
-# %bb.219:
+	jne	.LBB0_351
+# %bb.352:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_220:
+.LBB0_353:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_222
-.LBB0_221:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	add	edi, dword ptr [rdx + 4*rsi]
+	je	.LBB0_355
+.LBB0_354:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rdx + 4*rsi]
+	sub	edi, dword ptr [rcx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], edi
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_221
-.LBB0_222:
+	jne	.LBB0_354
+.LBB0_355:
 	cmp	r9, 3
 	jb	.LBB0_537
-.LBB0_223:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
+.LBB0_356:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
 	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
 	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
 	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_223
+	jne	.LBB0_356
 	jmp	.LBB0_537
 .LBB0_474:
 	lea	rsi, [r8 + 4*r10]
@@ -804,7 +804,7 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	cmp	r10, rsi
 	jne	.LBB0_97
 	jmp	.LBB0_537
-.LBB0_348:
+.LBB0_222:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
@@ -818,68 +818,68 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_353
-# %bb.349:
+	jne	.LBB0_227
+# %bb.223:
 	and	al, dil
-	jne	.LBB0_353
-# %bb.350:
+	jne	.LBB0_227
+# %bb.224:
 	mov	esi, r10d
 	and	esi, -32
 	xor	edi, edi
-.LBB0_351:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
-	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
+.LBB0_225:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
+	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
 	add	rdi, 32
 	cmp	rsi, rdi
-	jne	.LBB0_351
-# %bb.352:
+	jne	.LBB0_225
+# %bb.226:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_353:
+.LBB0_227:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_355
-.LBB0_354:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	sub	edi, dword ptr [rcx + 4*rsi]
+	je	.LBB0_229
+.LBB0_228:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rsi]
+	add	edi, dword ptr [rdx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], edi
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_354
-.LBB0_355:
+	jne	.LBB0_228
+.LBB0_229:
 	cmp	r9, 3
 	jb	.LBB0_537
-.LBB0_356:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
+.LBB0_230:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
 	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
 	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
 	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_356
+	jne	.LBB0_230
 	jmp	.LBB0_537
-.LBB0_269:
+.LBB0_402:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
@@ -893,66 +893,66 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_274
-# %bb.270:
+	jne	.LBB0_407
+# %bb.403:
 	and	al, dil
-	jne	.LBB0_274
-# %bb.271:
+	jne	.LBB0_407
+# %bb.404:
 	mov	esi, r10d
 	and	esi, -16
 	xor	edi, edi
-.LBB0_272:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vaddpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vaddpd	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vaddpd	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
+.LBB0_405:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vsubpd	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
+	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vsubpd	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vsubpd	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
 	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
 	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
 	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
 	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
 	add	rdi, 16
 	cmp	rsi, rdi
-	jne	.LBB0_272
-# %bb.273:
+	jne	.LBB0_405
+# %bb.406:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_274:
+.LBB0_407:
 	mov	rdi, rsi
 	not	rdi
 	add	rdi, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_276
-.LBB0_275:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+	je	.LBB0_409
+.LBB0_408:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
 	vmovsd	qword ptr [r8 + 8*rsi], xmm0
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_275
-.LBB0_276:
+	jne	.LBB0_408
+.LBB0_409:
 	cmp	rdi, 3
 	jb	.LBB0_537
-.LBB0_277:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
+.LBB0_410:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
 	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 8]
 	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 16]
 	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
+	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
+	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 24]
 	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_277
+	jne	.LBB0_410
 	jmp	.LBB0_537
 .LBB0_528:
 	lea	rsi, [r8 + 8*r10]
@@ -1104,7 +1104,7 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	cmp	r10, rsi
 	jne	.LBB0_151
 	jmp	.LBB0_537
-.LBB0_402:
+.LBB0_276:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
@@ -1118,68 +1118,68 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_407
-# %bb.403:
+	jne	.LBB0_281
+# %bb.277:
 	and	al, dil
-	jne	.LBB0_407
-# %bb.404:
+	jne	.LBB0_281
+# %bb.278:
 	mov	esi, r10d
 	and	esi, -16
 	xor	edi, edi
-.LBB0_405:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovupd	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vsubpd	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
-	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vsubpd	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vsubpd	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
+.LBB0_279:                              # =>This Inner Loop Header: Depth=1
+	vmovupd	ymm0, ymmword ptr [rcx + 8*rdi]
+	vmovupd	ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmovupd	ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vmovupd	ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vaddpd	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
+	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vaddpd	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vaddpd	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
 	vmovupd	ymmword ptr [r8 + 8*rdi], ymm0
 	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm1
 	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm2
 	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm3
 	add	rdi, 16
 	cmp	rsi, rdi
-	jne	.LBB0_405
-# %bb.406:
+	jne	.LBB0_279
+# %bb.280:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_407:
+.LBB0_281:
 	mov	rdi, rsi
 	not	rdi
 	add	rdi, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_409
-.LBB0_408:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
+	je	.LBB0_283
+.LBB0_282:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
 	vmovsd	qword ptr [r8 + 8*rsi], xmm0
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_408
-.LBB0_409:
+	jne	.LBB0_282
+.LBB0_283:
 	cmp	rdi, 3
 	jb	.LBB0_537
-.LBB0_410:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi]
+.LBB0_284:                              # =>This Inner Loop Header: Depth=1
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi]
 	vmovsd	qword ptr [r8 + 8*rsi], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 8]
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 8]
 	vmovsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 16]
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 16]
 	vmovsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	vmovsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
-	vsubsd	xmm0, xmm0, qword ptr [rcx + 8*rsi + 24]
+	vmovsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	vaddsd	xmm0, xmm0, qword ptr [rdx + 8*rsi + 24]
 	vmovsd	qword ptr [r8 + 8*rsi + 24], xmm0
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_410
+	jne	.LBB0_284
 	jmp	.LBB0_537
-.LBB0_182:
+.LBB0_315:
 	lea	rsi, [r8 + r10]
 	lea	rax, [rdx + r10]
 	cmp	rax, r8
@@ -1193,66 +1193,66 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_187
-# %bb.183:
+	jne	.LBB0_320
+# %bb.316:
 	and	al, dil
-	jne	.LBB0_187
-# %bb.184:
+	jne	.LBB0_320
+# %bb.317:
 	mov	esi, r10d
 	and	esi, -128
 	xor	edi, edi
-.LBB0_185:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
+.LBB0_318:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
 	vmovdqu	ymmword ptr [r8 + rdi], ymm0
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
 	sub	rdi, -128
 	cmp	rsi, rdi
-	jne	.LBB0_185
-# %bb.186:
+	jne	.LBB0_318
+# %bb.319:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_187:
+.LBB0_320:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_189
-.LBB0_188:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
+	je	.LBB0_322
+.LBB0_321:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
 	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_188
-.LBB0_189:
+	jne	.LBB0_321
+.LBB0_322:
 	cmp	r9, 3
 	jb	.LBB0_537
-.LBB0_190:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
+.LBB0_323:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
 	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
 	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
 	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
 	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_190
+	jne	.LBB0_323
 	jmp	.LBB0_537
 .LBB0_441:
 	lea	rsi, [r8 + r10]
@@ -1404,7 +1404,7 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	cmp	r10, rsi
 	jne	.LBB0_64
 	jmp	.LBB0_537
-.LBB0_315:
+.LBB0_189:
 	lea	rsi, [r8 + r10]
 	lea	rax, [rdx + r10]
 	cmp	rax, r8
@@ -1418,68 +1418,68 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_320
-# %bb.316:
+	jne	.LBB0_194
+# %bb.190:
 	and	al, dil
-	jne	.LBB0_320
-# %bb.317:
+	jne	.LBB0_194
+# %bb.191:
 	mov	esi, r10d
 	and	esi, -128
 	xor	edi, edi
-.LBB0_318:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
+.LBB0_192:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
 	vmovdqu	ymmword ptr [r8 + rdi], ymm0
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
 	sub	rdi, -128
 	cmp	rsi, rdi
-	jne	.LBB0_318
-# %bb.319:
+	jne	.LBB0_192
+# %bb.193:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_320:
+.LBB0_194:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_322
-.LBB0_321:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
+	je	.LBB0_196
+.LBB0_195:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
 	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_321
-.LBB0_322:
+	jne	.LBB0_195
+.LBB0_196:
 	cmp	r9, 3
 	jb	.LBB0_537
-.LBB0_323:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
+.LBB0_197:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
 	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
 	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
 	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_323
+	jne	.LBB0_197
 	jmp	.LBB0_537
-.LBB0_236:
+.LBB0_369:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
@@ -1493,66 +1493,66 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_241
-# %bb.237:
+	jne	.LBB0_374
+# %bb.370:
 	and	al, dil
-	jne	.LBB0_241
-# %bb.238:
+	jne	.LBB0_374
+# %bb.371:
 	mov	esi, r10d
 	and	esi, -16
 	xor	edi, edi
-.LBB0_239:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
+.LBB0_372:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
 	add	rdi, 16
 	cmp	rsi, rdi
-	jne	.LBB0_239
-# %bb.240:
+	jne	.LBB0_372
+# %bb.373:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_241:
+.LBB0_374:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_243
-.LBB0_242:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	add	rdi, qword ptr [rdx + 8*rsi]
+	je	.LBB0_376
+.LBB0_375:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rdx + 8*rsi]
+	sub	rdi, qword ptr [rcx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rdi
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_242
-.LBB0_243:
+	jne	.LBB0_375
+.LBB0_376:
 	cmp	r9, 3
 	jb	.LBB0_537
-.LBB0_244:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
+.LBB0_377:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
 	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
 	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
 	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_244
+	jne	.LBB0_377
 	jmp	.LBB0_537
 .LBB0_495:
 	lea	rsi, [r8 + 8*r10]
@@ -1704,7 +1704,7 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	cmp	r10, rsi
 	jne	.LBB0_118
 	jmp	.LBB0_537
-.LBB0_369:
+.LBB0_243:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
@@ -1718,68 +1718,68 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_374
-# %bb.370:
+	jne	.LBB0_248
+# %bb.244:
 	and	al, dil
-	jne	.LBB0_374
-# %bb.371:
+	jne	.LBB0_248
+# %bb.245:
 	mov	esi, r10d
 	and	esi, -16
 	xor	edi, edi
-.LBB0_372:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
+.LBB0_246:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
 	add	rdi, 16
 	cmp	rsi, rdi
-	jne	.LBB0_372
-# %bb.373:
+	jne	.LBB0_246
+# %bb.247:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_374:
+.LBB0_248:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_376
-.LBB0_375:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	sub	rdi, qword ptr [rcx + 8*rsi]
+	je	.LBB0_250
+.LBB0_249:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rsi]
+	add	rdi, qword ptr [rdx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rdi
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_375
-.LBB0_376:
+	jne	.LBB0_249
+.LBB0_250:
 	cmp	r9, 3
 	jb	.LBB0_537
-.LBB0_377:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
+.LBB0_251:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
 	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
 	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
 	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_377
+	jne	.LBB0_251
 	jmp	.LBB0_537
-.LBB0_194:
+.LBB0_327:
 	lea	rsi, [r8 + 2*r10]
 	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
@@ -1793,68 +1793,68 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_199
-# %bb.195:
+	jne	.LBB0_332
+# %bb.328:
 	and	al, dil
-	jne	.LBB0_199
-# %bb.196:
+	jne	.LBB0_332
+# %bb.329:
 	mov	esi, r10d
 	and	esi, -64
 	xor	edi, edi
-.LBB0_197:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
+.LBB0_330:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
 	add	rdi, 64
 	cmp	rsi, rdi
-	jne	.LBB0_197
-# %bb.198:
+	jne	.LBB0_330
+# %bb.331:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_199:
+.LBB0_332:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_201
-.LBB0_200:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, word ptr [rdx + 2*rsi]
+	je	.LBB0_334
+.LBB0_333:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	di, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_200
-.LBB0_201:
+	jne	.LBB0_333
+.LBB0_334:
 	cmp	r9, 3
 	jb	.LBB0_537
-.LBB0_202:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
+.LBB0_335:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
 	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
 	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
 	mov	word ptr [r8 + 2*rsi + 6], ax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_202
+	jne	.LBB0_335
 	jmp	.LBB0_537
-.LBB0_206:
+.LBB0_339:
 	lea	rsi, [r8 + 2*r10]
 	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
@@ -1868,66 +1868,66 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_211
-# %bb.207:
+	jne	.LBB0_344
+# %bb.340:
 	and	al, dil
-	jne	.LBB0_211
-# %bb.208:
+	jne	.LBB0_344
+# %bb.341:
 	mov	esi, r10d
 	and	esi, -64
 	xor	edi, edi
-.LBB0_209:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
+.LBB0_342:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
 	add	rdi, 64
 	cmp	rsi, rdi
-	jne	.LBB0_209
-# %bb.210:
+	jne	.LBB0_342
+# %bb.343:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_211:
+.LBB0_344:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_213
-.LBB0_212:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, word ptr [rdx + 2*rsi]
+	je	.LBB0_346
+.LBB0_345:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rdx + 2*rsi]
+	sub	di, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_212
-.LBB0_213:
+	jne	.LBB0_345
+.LBB0_346:
 	cmp	r9, 3
 	jb	.LBB0_537
-.LBB0_214:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
+.LBB0_347:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
 	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
 	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
 	mov	word ptr [r8 + 2*rsi + 6], ax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_214
+	jne	.LBB0_347
 	jmp	.LBB0_537
 .LBB0_453:
 	lea	rsi, [r8 + 2*r10]
@@ -2229,7 +2229,7 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	cmp	r10, rsi
 	jne	.LBB0_88
 	jmp	.LBB0_537
-.LBB0_327:
+.LBB0_201:
 	lea	rsi, [r8 + 2*r10]
 	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
@@ -2243,68 +2243,68 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_332
-# %bb.328:
+	jne	.LBB0_206
+# %bb.202:
 	and	al, dil
-	jne	.LBB0_332
-# %bb.329:
+	jne	.LBB0_206
+# %bb.203:
 	mov	esi, r10d
 	and	esi, -64
 	xor	edi, edi
-.LBB0_330:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
+.LBB0_204:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
 	add	rdi, 64
 	cmp	rsi, rdi
-	jne	.LBB0_330
-# %bb.331:
+	jne	.LBB0_204
+# %bb.205:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_332:
+.LBB0_206:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_334
-.LBB0_333:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	di, word ptr [rcx + 2*rsi]
+	je	.LBB0_208
+.LBB0_207:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, word ptr [rdx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_333
-.LBB0_334:
+	jne	.LBB0_207
+.LBB0_208:
 	cmp	r9, 3
 	jb	.LBB0_537
-.LBB0_335:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
+.LBB0_209:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
 	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
 	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
 	mov	word ptr [r8 + 2*rsi + 6], ax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_335
+	jne	.LBB0_209
 	jmp	.LBB0_537
-.LBB0_339:
+.LBB0_213:
 	lea	rsi, [r8 + 2*r10]
 	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
@@ -2318,68 +2318,68 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_344
-# %bb.340:
+	jne	.LBB0_218
+# %bb.214:
 	and	al, dil
-	jne	.LBB0_344
-# %bb.341:
+	jne	.LBB0_218
+# %bb.215:
 	mov	esi, r10d
 	and	esi, -64
 	xor	edi, edi
-.LBB0_342:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm1, ymm1, ymmword ptr [rcx + 2*rdi + 32]
-	vpsubw	ymm2, ymm2, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm3, ymm3, ymmword ptr [rcx + 2*rdi + 96]
+.LBB0_216:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 2*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 2*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 2*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 2*rdi + 96]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm1, ymm1, ymmword ptr [rdx + 2*rdi + 32]
+	vpaddw	ymm2, ymm2, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm3, ymm3, ymmword ptr [rdx + 2*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm0
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm2
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm3
 	add	rdi, 64
 	cmp	rsi, rdi
-	jne	.LBB0_342
-# %bb.343:
+	jne	.LBB0_216
+# %bb.217:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_344:
+.LBB0_218:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_346
-.LBB0_345:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	di, word ptr [rcx + 2*rsi]
+	je	.LBB0_220
+.LBB0_219:                              # =>This Inner Loop Header: Depth=1
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, word ptr [rdx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_345
-.LBB0_346:
+	jne	.LBB0_219
+.LBB0_220:
 	cmp	r9, 3
 	jb	.LBB0_537
-.LBB0_347:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
+.LBB0_221:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
 	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
 	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
 	mov	word ptr [r8 + 2*rsi + 6], ax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_347
+	jne	.LBB0_221
 	jmp	.LBB0_537
-.LBB0_248:
+.LBB0_381:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
@@ -2393,68 +2393,68 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_253
-# %bb.249:
+	jne	.LBB0_386
+# %bb.382:
 	and	al, dil
-	jne	.LBB0_253
-# %bb.250:
+	jne	.LBB0_386
+# %bb.383:
 	mov	esi, r10d
 	and	esi, -16
 	xor	edi, edi
-.LBB0_251:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
+.LBB0_384:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
 	add	rdi, 16
 	cmp	rsi, rdi
-	jne	.LBB0_251
-# %bb.252:
+	jne	.LBB0_384
+# %bb.385:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_253:
+.LBB0_386:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_255
-.LBB0_254:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rcx + 8*rsi]
-	add	rdi, qword ptr [rdx + 8*rsi]
+	je	.LBB0_388
+.LBB0_387:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rdx + 8*rsi]
+	sub	rdi, qword ptr [rcx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rdi
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_254
-.LBB0_255:
+	jne	.LBB0_387
+.LBB0_388:
 	cmp	r9, 3
 	jb	.LBB0_537
-.LBB0_256:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
+.LBB0_389:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
 	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
 	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
 	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_256
+	jne	.LBB0_389
 	jmp	.LBB0_537
-.LBB0_260:
+.LBB0_393:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
@@ -2468,66 +2468,66 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_265
-# %bb.261:
+	jne	.LBB0_398
+# %bb.394:
 	and	al, dil
-	jne	.LBB0_265
-# %bb.262:
+	jne	.LBB0_398
+# %bb.395:
 	mov	esi, r10d
 	and	esi, -32
 	xor	edi, edi
-.LBB0_263:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vaddps	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vaddps	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vaddps	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+.LBB0_396:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vsubps	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
+	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vsubps	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vsubps	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
 	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
 	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
 	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
 	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
 	add	rdi, 32
 	cmp	rsi, rdi
-	jne	.LBB0_263
-# %bb.264:
+	jne	.LBB0_396
+# %bb.397:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_265:
+.LBB0_398:
 	mov	rdi, rsi
 	not	rdi
 	add	rdi, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_267
-.LBB0_266:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
+	je	.LBB0_400
+.LBB0_399:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
 	vmovss	dword ptr [r8 + 4*rsi], xmm0
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_266
-.LBB0_267:
+	jne	.LBB0_399
+.LBB0_400:
 	cmp	rdi, 3
 	jb	.LBB0_537
-.LBB0_268:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
+.LBB0_401:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
 	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 4]
 	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 8]
 	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
+	vmovss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 12]
 	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_268
+	jne	.LBB0_401
 	jmp	.LBB0_537
 .LBB0_507:
 	lea	rsi, [r8 + 8*r10]
@@ -2829,7 +2829,7 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	cmp	r10, rsi
 	jne	.LBB0_142
 	jmp	.LBB0_537
-.LBB0_381:
+.LBB0_255:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
@@ -2843,68 +2843,68 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_386
-# %bb.382:
+	jne	.LBB0_260
+# %bb.256:
 	and	al, dil
-	jne	.LBB0_386
-# %bb.383:
+	jne	.LBB0_260
+# %bb.257:
 	mov	esi, r10d
 	and	esi, -16
 	xor	edi, edi
-.LBB0_384:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm2, ymm2, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm3, ymm3, ymmword ptr [rcx + 8*rdi + 96]
+.LBB0_258:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 8*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 8*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 8*rdi + 96]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm2, ymm2, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm3, ymm3, ymmword ptr [rdx + 8*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm0
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm3
 	add	rdi, 16
 	cmp	rsi, rdi
-	jne	.LBB0_384
-# %bb.385:
+	jne	.LBB0_258
+# %bb.259:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_386:
+.LBB0_260:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_388
-.LBB0_387:                              # =>This Inner Loop Header: Depth=1
-	mov	rdi, qword ptr [rdx + 8*rsi]
-	sub	rdi, qword ptr [rcx + 8*rsi]
+	je	.LBB0_262
+.LBB0_261:                              # =>This Inner Loop Header: Depth=1
+	mov	rdi, qword ptr [rcx + 8*rsi]
+	add	rdi, qword ptr [rdx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rdi
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_387
-.LBB0_388:
+	jne	.LBB0_261
+.LBB0_262:
 	cmp	r9, 3
 	jb	.LBB0_537
-.LBB0_389:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
+.LBB0_263:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
 	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
 	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
 	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_389
+	jne	.LBB0_263
 	jmp	.LBB0_537
-.LBB0_393:
+.LBB0_267:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
@@ -2918,68 +2918,68 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_398
-# %bb.394:
+	jne	.LBB0_272
+# %bb.268:
 	and	al, dil
-	jne	.LBB0_398
-# %bb.395:
+	jne	.LBB0_272
+# %bb.269:
 	mov	esi, r10d
 	and	esi, -32
 	xor	edi, edi
-.LBB0_396:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovups	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovups	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vsubps	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
-	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vsubps	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vsubps	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
+.LBB0_270:                              # =>This Inner Loop Header: Depth=1
+	vmovups	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovups	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovups	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovups	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vaddps	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vaddps	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vaddps	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
 	vmovups	ymmword ptr [r8 + 4*rdi], ymm0
 	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm1
 	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm2
 	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm3
 	add	rdi, 32
 	cmp	rsi, rdi
-	jne	.LBB0_396
-# %bb.397:
+	jne	.LBB0_270
+# %bb.271:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_398:
+.LBB0_272:
 	mov	rdi, rsi
 	not	rdi
 	add	rdi, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_400
-.LBB0_399:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
+	je	.LBB0_274
+.LBB0_273:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
 	vmovss	dword ptr [r8 + 4*rsi], xmm0
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_399
-.LBB0_400:
+	jne	.LBB0_273
+.LBB0_274:
 	cmp	rdi, 3
 	jb	.LBB0_537
-.LBB0_401:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi]
+.LBB0_275:                              # =>This Inner Loop Header: Depth=1
+	vmovss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi]
 	vmovss	dword ptr [r8 + 4*rsi], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 4]
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 4]
 	vmovss	dword ptr [r8 + 4*rsi + 4], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 8]
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 8]
 	vmovss	dword ptr [r8 + 4*rsi + 8], xmm0
-	vmovss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	vsubss	xmm0, xmm0, dword ptr [rcx + 4*rsi + 12]
+	vmovss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	vaddss	xmm0, xmm0, dword ptr [rdx + 4*rsi + 12]
 	vmovss	dword ptr [r8 + 4*rsi + 12], xmm0
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_401
+	jne	.LBB0_275
 	jmp	.LBB0_537
-.LBB0_173:
+.LBB0_306:
 	lea	rsi, [r8 + r10]
 	lea	rax, [rdx + r10]
 	cmp	rax, r8
@@ -2993,66 +2993,66 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_178
-# %bb.174:
+	jne	.LBB0_311
+# %bb.307:
 	and	al, dil
-	jne	.LBB0_178
-# %bb.175:
+	jne	.LBB0_311
+# %bb.308:
 	mov	esi, r10d
 	and	esi, -128
 	xor	edi, edi
-.LBB0_176:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
+.LBB0_309:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
 	vmovdqu	ymmword ptr [r8 + rdi], ymm0
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
 	sub	rdi, -128
 	cmp	rsi, rdi
-	jne	.LBB0_176
-# %bb.177:
+	jne	.LBB0_309
+# %bb.310:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_178:
+.LBB0_311:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_180
-.LBB0_179:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
+	je	.LBB0_313
+.LBB0_312:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
 	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_179
-.LBB0_180:
+	jne	.LBB0_312
+.LBB0_313:
 	cmp	r9, 3
 	jb	.LBB0_537
-.LBB0_181:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
+.LBB0_314:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
 	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
 	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
 	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
 	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_181
+	jne	.LBB0_314
 	jmp	.LBB0_537
 .LBB0_432:
 	lea	rsi, [r8 + r10]
@@ -3204,7 +3204,7 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	cmp	r10, rsi
 	jne	.LBB0_55
 	jmp	.LBB0_537
-.LBB0_306:
+.LBB0_180:
 	lea	rsi, [r8 + r10]
 	lea	rax, [rdx + r10]
 	cmp	rax, r8
@@ -3218,68 +3218,68 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_311
-# %bb.307:
+	jne	.LBB0_185
+# %bb.181:
 	and	al, dil
-	jne	.LBB0_311
-# %bb.308:
+	jne	.LBB0_185
+# %bb.182:
 	mov	esi, r10d
 	and	esi, -128
 	xor	edi, edi
-.LBB0_309:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm1, ymm1, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm2, ymm2, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm3, ymm3, ymmword ptr [rcx + rdi + 96]
+.LBB0_183:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + rdi + 96]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm1, ymm1, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm2, ymm2, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm3, ymm3, ymmword ptr [rdx + rdi + 96]
 	vmovdqu	ymmword ptr [r8 + rdi], ymm0
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm3
 	sub	rdi, -128
 	cmp	rsi, rdi
-	jne	.LBB0_309
-# %bb.310:
+	jne	.LBB0_183
+# %bb.184:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_311:
+.LBB0_185:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_313
-.LBB0_312:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
+	je	.LBB0_187
+.LBB0_186:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
 	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_312
-.LBB0_313:
+	jne	.LBB0_186
+.LBB0_187:
 	cmp	r9, 3
 	jb	.LBB0_537
-.LBB0_314:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
+.LBB0_188:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
 	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
 	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
 	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
 	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_314
+	jne	.LBB0_188
 	jmp	.LBB0_537
-.LBB0_227:
+.LBB0_360:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
@@ -3293,66 +3293,66 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_232
-# %bb.228:
+	jne	.LBB0_365
+# %bb.361:
 	and	al, dil
-	jne	.LBB0_232
-# %bb.229:
+	jne	.LBB0_365
+# %bb.362:
 	mov	esi, r10d
 	and	esi, -32
 	xor	edi, edi
-.LBB0_230:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
+.LBB0_363:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
 	add	rdi, 32
 	cmp	rsi, rdi
-	jne	.LBB0_230
-# %bb.231:
+	jne	.LBB0_363
+# %bb.364:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_232:
+.LBB0_365:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_234
-.LBB0_233:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rcx + 4*rsi]
-	add	edi, dword ptr [rdx + 4*rsi]
+	je	.LBB0_367
+.LBB0_366:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rdx + 4*rsi]
+	sub	edi, dword ptr [rcx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], edi
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_233
-.LBB0_234:
+	jne	.LBB0_366
+.LBB0_367:
 	cmp	r9, 3
 	jb	.LBB0_537
-.LBB0_235:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
+.LBB0_368:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
 	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
 	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
 	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_235
+	jne	.LBB0_368
 	jmp	.LBB0_537
 .LBB0_486:
 	lea	rsi, [r8 + 4*r10]
@@ -3504,7 +3504,7 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	cmp	r10, rsi
 	jne	.LBB0_109
 	jmp	.LBB0_537
-.LBB0_360:
+.LBB0_234:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
@@ -3518,66 +3518,66 @@ arithmetic_avx2:                        # @arithmetic_avx2
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_365
-# %bb.361:
-	and	al, dil
-	jne	.LBB0_365
-# %bb.362:
-	mov	esi, r10d
-	and	esi, -32
-	xor	edi, edi
-.LBB0_363:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm0, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm2, ymm2, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm3, ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	jne	.LBB0_239
+# %bb.235:
+	and	al, dil
+	jne	.LBB0_239
+# %bb.236:
+	mov	esi, r10d
+	and	esi, -32
+	xor	edi, edi
+.LBB0_237:                              # =>This Inner Loop Header: Depth=1
+	vmovdqu	ymm0, ymmword ptr [rcx + 4*rdi]
+	vmovdqu	ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vmovdqu	ymm2, ymmword ptr [rcx + 4*rdi + 64]
+	vmovdqu	ymm3, ymmword ptr [rcx + 4*rdi + 96]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm2, ymm2, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm3, ymm3, ymmword ptr [rdx + 4*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm0
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm3
 	add	rdi, 32
 	cmp	rsi, rdi
-	jne	.LBB0_363
-# %bb.364:
+	jne	.LBB0_237
+# %bb.238:
 	cmp	rsi, r10
 	je	.LBB0_537
-.LBB0_365:
+.LBB0_239:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rax, r10
 	and	rax, 3
-	je	.LBB0_367
-.LBB0_366:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, dword ptr [rdx + 4*rsi]
-	sub	edi, dword ptr [rcx + 4*rsi]
+	je	.LBB0_241
+.LBB0_240:                              # =>This Inner Loop Header: Depth=1
+	mov	edi, dword ptr [rcx + 4*rsi]
+	add	edi, dword ptr [rdx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], edi
 	add	rsi, 1
 	add	rax, -1
-	jne	.LBB0_366
-.LBB0_367:
+	jne	.LBB0_240
+.LBB0_241:
 	cmp	r9, 3
 	jb	.LBB0_537
-.LBB0_368:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
+.LBB0_242:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
 	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
 	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
 	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_368
+	jne	.LBB0_242
 .LBB0_537:
 	mov	rsp, rbp
 	pop	rbp
@@ -3644,7 +3644,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_423
 .LBB1_422:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
 	add	rsi, 1
 	add	rdi, -1
@@ -3654,16 +3654,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	jb	.LBB1_737
 .LBB1_424:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 4], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 8], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 12], ecx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -3851,7 +3851,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_447
 .LBB1_446:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
 	add	rsi, 1
 	add	rdi, -1
@@ -3861,16 +3861,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	jb	.LBB1_737
 .LBB1_448:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 4], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 8], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 12], ecx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -3914,7 +3914,8 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	and	rdi, 3
 	je	.LBB1_455
 .LBB1_454:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
 	vmovsd	qword ptr [r8 + 8*rcx], xmm1
 	add	rcx, 1
 	add	rdi, -1
@@ -3923,13 +3924,17 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	cmp	rsi, 3
 	jb	.LBB1_737
 .LBB1_456:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
 	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 8]
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
 	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 16]
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
 	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 24]
+	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
+	vsubsd	xmm1, xmm1, xmm0
 	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
 	add	rcx, 4
 	cmp	rax, rcx
@@ -4096,8 +4101,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	and	rdi, 3
 	je	.LBB1_479
 .LBB1_478:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
 	vmovsd	qword ptr [r8 + 8*rcx], xmm1
 	add	rcx, 1
 	add	rdi, -1
@@ -4106,17 +4110,13 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	cmp	rsi, 3
 	jb	.LBB1_737
 .LBB1_480:                              # =>This Inner Loop Header: Depth=1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx]
 	vmovsd	qword ptr [r8 + 8*rcx], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 8]
 	vmovsd	qword ptr [r8 + 8*rcx + 8], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 16]
 	vmovsd	qword ptr [r8 + 8*rcx + 16], xmm1
-	vmovsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	vsubsd	xmm1, xmm1, xmm0
+	vaddsd	xmm1, xmm0, qword ptr [rdx + 8*rcx + 24]
 	vmovsd	qword ptr [r8 + 8*rcx + 24], xmm1
 	add	rcx, 4
 	cmp	rax, rcx
@@ -4155,7 +4155,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_487
 .LBB1_486:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi], cl
 	add	rsi, 1
 	add	rdi, -1
@@ -4165,16 +4165,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	jb	.LBB1_737
 .LBB1_488:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi], cl
 	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi + 1], cl
 	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi + 2], cl
 	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi + 3], cl
 	add	rsi, 4
 	cmp	r10, rsi
@@ -4329,7 +4329,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_511
 .LBB1_510:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi], cl
 	add	rsi, 1
 	add	rdi, -1
@@ -4339,16 +4339,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	jb	.LBB1_737
 .LBB1_512:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi], cl
 	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi + 1], cl
 	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi + 2], cl
 	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi + 3], cl
 	add	rsi, 4
 	cmp	r10, rsi
@@ -4387,7 +4387,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_519
 .LBB1_518:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
 	add	rdi, -1
@@ -4397,16 +4397,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	jb	.LBB1_737
 .LBB1_520:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 8], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 16], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -4561,7 +4561,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_543
 .LBB1_542:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
 	add	rdi, -1
@@ -4571,16 +4571,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	jb	.LBB1_737
 .LBB1_544:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 8], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 16], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -4613,7 +4613,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_551
 .LBB1_550:                              # =>This Inner Loop Header: Depth=1
 	movzx	edi, word ptr [rdx + 2*rsi]
-	add	di, ax
+	sub	edi, eax
 	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rcx, -1
@@ -4623,16 +4623,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	jb	.LBB1_737
 .LBB1_552:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi + 2], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi + 4], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -4665,7 +4665,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_559
 .LBB1_558:                              # =>This Inner Loop Header: Depth=1
 	movzx	edi, word ptr [rdx + 2*rsi]
-	add	di, ax
+	sub	edi, eax
 	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rcx, -1
@@ -4675,16 +4675,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	jb	.LBB1_737
 .LBB1_560:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi + 2], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi + 4], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -4925,7 +4925,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_599
 .LBB1_598:                              # =>This Inner Loop Header: Depth=1
 	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	edi, eax
+	add	di, ax
 	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rcx, -1
@@ -4935,16 +4935,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	jb	.LBB1_737
 .LBB1_600:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 2], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 4], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -4977,7 +4977,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_607
 .LBB1_606:                              # =>This Inner Loop Header: Depth=1
 	movzx	edi, word ptr [rdx + 2*rsi]
-	sub	edi, eax
+	add	di, ax
 	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rcx, -1
@@ -4987,16 +4987,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	jb	.LBB1_737
 .LBB1_608:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 2], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 4], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -5029,7 +5029,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_615
 .LBB1_614:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
 	add	rdi, -1
@@ -5039,16 +5039,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	jb	.LBB1_737
 .LBB1_616:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 8], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 16], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -5080,7 +5080,8 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	and	rdi, 3
 	je	.LBB1_623
 .LBB1_622:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
+	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
 	vmovss	dword ptr [r8 + 4*rcx], xmm1
 	add	rcx, 1
 	add	rdi, -1
@@ -5089,13 +5090,17 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	cmp	rsi, 3
 	jb	.LBB1_737
 .LBB1_624:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
+	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
 	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 4]
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
 	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 8]
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
 	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 12]
+	vmovss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
+	vsubss	xmm1, xmm1, xmm0
 	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
 	add	rcx, 4
 	cmp	rax, rcx
@@ -5331,7 +5336,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_663
 .LBB1_662:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
 	add	rdi, -1
@@ -5341,16 +5346,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	jb	.LBB1_737
 .LBB1_664:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 8], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 16], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -5382,8 +5387,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	and	rdi, 3
 	je	.LBB1_671
 .LBB1_670:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
 	vmovss	dword ptr [r8 + 4*rcx], xmm1
 	add	rcx, 1
 	add	rdi, -1
@@ -5392,17 +5396,13 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	cmp	rsi, 3
 	jb	.LBB1_737
 .LBB1_672:                              # =>This Inner Loop Header: Depth=1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx]
 	vmovss	dword ptr [r8 + 4*rcx], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 4]
 	vmovss	dword ptr [r8 + 4*rcx + 4], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 8]
 	vmovss	dword ptr [r8 + 4*rcx + 8], xmm1
-	vmovss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	vsubss	xmm1, xmm1, xmm0
+	vaddss	xmm1, xmm0, dword ptr [rdx + 4*rcx + 12]
 	vmovss	dword ptr [r8 + 4*rcx + 12], xmm1
 	add	rcx, 4
 	cmp	rax, rcx
@@ -5435,7 +5435,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_679
 .LBB1_678:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi], cl
 	add	rsi, 1
 	add	rdi, -1
@@ -5445,16 +5445,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	jb	.LBB1_737
 .LBB1_680:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi], cl
 	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi + 1], cl
 	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi + 2], cl
 	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi + 3], cl
 	add	rsi, 4
 	cmp	r10, rsi
@@ -5591,7 +5591,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_703
 .LBB1_702:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi], cl
 	add	rsi, 1
 	add	rdi, -1
@@ -5601,16 +5601,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	jb	.LBB1_737
 .LBB1_704:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi], cl
 	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi + 1], cl
 	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi + 2], cl
 	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi + 3], cl
 	add	rsi, 4
 	cmp	r10, rsi
@@ -5643,7 +5643,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_711
 .LBB1_710:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
 	add	rsi, 1
 	add	rdi, -1
@@ -5653,16 +5653,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	jb	.LBB1_737
 .LBB1_712:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 4], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 8], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 12], ecx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -5799,7 +5799,7 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_735
 .LBB1_734:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
 	add	rsi, 1
 	add	rdi, -1
@@ -5809,16 +5809,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	jb	.LBB1_737
 .LBB1_736:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 4], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 8], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 12], ecx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -5841,18 +5841,26 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	neg	rcx
 	xor	edi, edi
 .LBB1_299:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
@@ -5960,26 +5968,18 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	neg	rcx
 	xor	edi, edi
 .LBB1_308:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
@@ -5999,29 +5999,37 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	rsi, rsi
 	je	.LBB1_449
 # %bb.310:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
 .LBB1_311:                              # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 160]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 192]
-	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 224]
-	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
-	add	rdi, 32
-	add	rsi, 2
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm5, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi + 128]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 160]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 192]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 224]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm5, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 224], ymm5
+	add	rsi, 32
+	add	rdi, 2
 	jne	.LBB1_311
 	jmp	.LBB1_450
 .LBB1_312:
@@ -6115,37 +6123,29 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	rsi, rsi
 	je	.LBB1_473
 # %bb.319:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
 .LBB1_320:                              # =>This Inner Loop Header: Depth=1
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm5, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm5
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi + 128]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 160]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 192]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 224]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm5, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi + 128], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 160], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 192], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 224], ymm5
-	add	rsi, 32
-	add	rdi, 2
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
+	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 160]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 192]
+	vaddpd	ymm5, ymm1, ymmword ptr [rdx + 8*rdi + 224]
+	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 224], ymm5
+	add	rdi, 32
+	add	rsi, 2
 	jne	.LBB1_320
 	jmp	.LBB1_474
 .LBB1_321:
@@ -6165,18 +6165,26 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	neg	rcx
 	xor	edi, edi
 .LBB1_323:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
@@ -6284,26 +6292,18 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	neg	rcx
 	xor	edi, edi
 .LBB1_332:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
 	vmovdqu	ymmword ptr [r8 + rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
 	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
@@ -6329,18 +6329,26 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	neg	rcx
 	xor	edi, edi
 .LBB1_335:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
@@ -6448,26 +6456,18 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	neg	rcx
 	xor	edi, edi
 .LBB1_344:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
@@ -6493,12 +6493,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	neg	rcx
 	xor	edi, edi
 .LBB1_347:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
 	add	rdi, 64
@@ -6522,12 +6526,16 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	neg	rcx
 	xor	edi, edi
 .LBB1_350:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm2, ymm2, ymm0
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
 	add	rdi, 64
@@ -6675,16 +6683,12 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	neg	rcx
 	xor	edi, edi
 .LBB1_365:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
 	add	rdi, 64
@@ -6708,16 +6712,12 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	neg	rcx
 	xor	edi, edi
 .LBB1_368:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 32]
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi + 64]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 96]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm2, ymm2, ymm0
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rdx + 2*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
 	add	rdi, 64
@@ -6741,18 +6741,26 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	neg	rcx
 	xor	edi, edi
 .LBB1_371:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm4, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
@@ -6772,29 +6780,37 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	rsi, rsi
 	je	.LBB1_617
 # %bb.373:
-	mov	rsi, r9
-	and	rsi, -2
-	neg	rsi
-	xor	edi, edi
+	mov	rdi, r9
+	and	rdi, -2
+	neg	rdi
+	xor	esi, esi
 .LBB1_374:                              # =>This Inner Loop Header: Depth=1
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 160]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 192]
-	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 224]
-	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
-	add	rdi, 64
-	add	rsi, 2
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm5, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi + 128]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 160]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 192]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 224]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm5, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 224], ymm5
+	add	rsi, 64
+	add	rdi, 2
 	jne	.LBB1_374
 	jmp	.LBB1_618
 .LBB1_375:
@@ -6976,26 +6992,18 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	neg	rcx
 	xor	edi, edi
 .LBB1_389:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 224]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm4, ymm4, ymm0
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rdx + 8*rdi + 224]
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
@@ -7015,37 +7023,29 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	rsi, rsi
 	je	.LBB1_665
 # %bb.391:
-	mov	rdi, r9
-	and	rdi, -2
-	neg	rdi
-	xor	esi, esi
+	mov	rsi, r9
+	and	rsi, -2
+	neg	rsi
+	xor	edi, edi
 .LBB1_392:                              # =>This Inner Loop Header: Depth=1
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm5, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm5
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi + 128]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 160]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 192]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 224]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm5, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi + 128], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 160], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 192], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 224], ymm5
-	add	rsi, 64
-	add	rdi, 2
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
+	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 160]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 192]
+	vaddps	ymm5, ymm1, ymmword ptr [rdx + 4*rdi + 224]
+	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 224], ymm5
+	add	rdi, 64
+	add	rsi, 2
 	jne	.LBB1_392
 	jmp	.LBB1_666
 .LBB1_393:
@@ -7065,18 +7065,26 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	neg	rcx
 	xor	edi, edi
 .LBB1_395:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm4, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
@@ -7184,26 +7192,18 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	neg	rcx
 	xor	edi, edi
 .LBB1_404:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 96]
 	vmovdqu	ymmword ptr [r8 + rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 224]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm4, ymm4, ymm0
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rdx + rdi + 224]
 	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
@@ -7229,18 +7229,26 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	neg	rcx
 	xor	edi, edi
 .LBB1_407:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm4, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
@@ -7348,26 +7356,18 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	neg	rcx
 	xor	edi, edi
 .LBB1_416:                              # =>This Inner Loop Header: Depth=1
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi + 128]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 160]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 192]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 224]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm4, ymm4, ymm0
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rdx + 4*rdi + 224]
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
@@ -7382,10 +7382,14 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	r9b, 1
 	je	.LBB1_420
 # %bb.419:
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm0, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
@@ -7440,14 +7444,10 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	r9b, 1
 	je	.LBB1_444
 # %bb.443:
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm0, ymm4, ymm0
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
@@ -7457,19 +7457,23 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_737
 	jmp	.LBB1_445
 .LBB1_449:
-	xor	edi, edi
+	xor	esi, esi
 .LBB1_450:
 	test	r9b, 1
 	je	.LBB1_452
 # %bb.451:
-	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
-	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 96]
-	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
+	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
+	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
+	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
+	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
+	vsubpd	ymm2, ymm2, ymm1
+	vsubpd	ymm3, ymm3, ymm1
+	vsubpd	ymm4, ymm4, ymm1
+	vsubpd	ymm1, ymm5, ymm1
+	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
 .LBB1_452:
 	cmp	rcx, rax
 	je	.LBB1_737
@@ -7515,23 +7519,19 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_737
 	jmp	.LBB1_469
 .LBB1_473:
-	xor	esi, esi
+	xor	edi, edi
 .LBB1_474:
 	test	r9b, 1
 	je	.LBB1_476
 # %bb.475:
-	vmovupd	ymm2, ymmword ptr [rdx + 8*rsi]
-	vmovupd	ymm3, ymmword ptr [rdx + 8*rsi + 32]
-	vmovupd	ymm4, ymmword ptr [rdx + 8*rsi + 64]
-	vmovupd	ymm5, ymmword ptr [rdx + 8*rsi + 96]
-	vsubpd	ymm2, ymm2, ymm1
-	vsubpd	ymm3, ymm3, ymm1
-	vsubpd	ymm4, ymm4, ymm1
-	vsubpd	ymm1, ymm5, ymm1
-	vmovupd	ymmword ptr [r8 + 8*rsi], ymm2
-	vmovupd	ymmword ptr [r8 + 8*rsi + 32], ymm3
-	vmovupd	ymmword ptr [r8 + 8*rsi + 64], ymm4
-	vmovupd	ymmword ptr [r8 + 8*rsi + 96], ymm1
+	vaddpd	ymm2, ymm1, ymmword ptr [rdx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rdx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rdx + 8*rdi + 64]
+	vaddpd	ymm1, ymm1, ymmword ptr [rdx + 8*rdi + 96]
+	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
+	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
+	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
+	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm1
 .LBB1_476:
 	cmp	rcx, rax
 	je	.LBB1_737
@@ -7542,10 +7542,14 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	r9b, 1
 	je	.LBB1_484
 # %bb.483:
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm0, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
@@ -7600,14 +7604,10 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	r9b, 1
 	je	.LBB1_508
 # %bb.507:
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm0, ymm4, ymm0
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
 	vmovdqu	ymmword ptr [r8 + rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
@@ -7622,10 +7622,14 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	r9b, 1
 	je	.LBB1_516
 # %bb.515:
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm0, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
@@ -7680,14 +7684,10 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	r9b, 1
 	je	.LBB1_540
 # %bb.539:
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm0, ymm4, ymm0
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
@@ -7702,8 +7702,10 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	r9b, 1
 	je	.LBB1_548
 # %bb.547:
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm0, ymm2, ymm0
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
 .LBB1_548:
@@ -7716,8 +7718,10 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	r9b, 1
 	je	.LBB1_556
 # %bb.555:
-	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
+	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
+	vpsubw	ymm1, ymm1, ymm0
+	vpsubw	ymm0, ymm2, ymm0
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
 .LBB1_556:
@@ -7790,10 +7794,8 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	r9b, 1
 	je	.LBB1_596
 # %bb.595:
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm0, ymm2, ymm0
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
 .LBB1_596:
@@ -7806,10 +7808,8 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	r9b, 1
 	je	.LBB1_604
 # %bb.603:
-	vmovdqu	ymm1, ymmword ptr [rdx + 2*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 2*rdi + 32]
-	vpsubw	ymm1, ymm1, ymm0
-	vpsubw	ymm0, ymm2, ymm0
+	vpaddw	ymm1, ymm0, ymmword ptr [rdx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rdx + 2*rdi + 32]
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
 .LBB1_604:
@@ -7822,10 +7822,14 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	r9b, 1
 	je	.LBB1_612
 # %bb.611:
-	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
+	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
+	vpsubq	ymm1, ymm1, ymm0
+	vpsubq	ymm2, ymm2, ymm0
+	vpsubq	ymm3, ymm3, ymm0
+	vpsubq	ymm0, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
@@ -7835,19 +7839,23 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_737
 	jmp	.LBB1_613
 .LBB1_617:
-	xor	edi, edi
+	xor	esi, esi
 .LBB1_618:
 	test	r9b, 1
 	je	.LBB1_620
 # %bb.619:
-	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
-	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 96]
-	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
+	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
+	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
+	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
+	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
+	vsubps	ymm2, ymm2, ymm1
+	vsubps	ymm3, ymm3, ymm1
+	vsubps	ymm4, ymm4, ymm1
+	vsubps	ymm1, ymm5, ymm1
+	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
 .LBB1_620:
 	cmp	rcx, rax
 	je	.LBB1_737
@@ -7938,14 +7946,10 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	r9b, 1
 	je	.LBB1_660
 # %bb.659:
-	vmovdqu	ymm1, ymmword ptr [rdx + 8*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 8*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 8*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 8*rdi + 96]
-	vpsubq	ymm1, ymm1, ymm0
-	vpsubq	ymm2, ymm2, ymm0
-	vpsubq	ymm3, ymm3, ymm0
-	vpsubq	ymm0, ymm4, ymm0
+	vpaddq	ymm1, ymm0, ymmword ptr [rdx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rdx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rdx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rdx + 8*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
@@ -7955,23 +7959,19 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	je	.LBB1_737
 	jmp	.LBB1_661
 .LBB1_665:
-	xor	esi, esi
+	xor	edi, edi
 .LBB1_666:
 	test	r9b, 1
 	je	.LBB1_668
 # %bb.667:
-	vmovups	ymm2, ymmword ptr [rdx + 4*rsi]
-	vmovups	ymm3, ymmword ptr [rdx + 4*rsi + 32]
-	vmovups	ymm4, ymmword ptr [rdx + 4*rsi + 64]
-	vmovups	ymm5, ymmword ptr [rdx + 4*rsi + 96]
-	vsubps	ymm2, ymm2, ymm1
-	vsubps	ymm3, ymm3, ymm1
-	vsubps	ymm4, ymm4, ymm1
-	vsubps	ymm1, ymm5, ymm1
-	vmovups	ymmword ptr [r8 + 4*rsi], ymm2
-	vmovups	ymmword ptr [r8 + 4*rsi + 32], ymm3
-	vmovups	ymmword ptr [r8 + 4*rsi + 64], ymm4
-	vmovups	ymmword ptr [r8 + 4*rsi + 96], ymm1
+	vaddps	ymm2, ymm1, ymmword ptr [rdx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rdx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rdx + 4*rdi + 64]
+	vaddps	ymm1, ymm1, ymmword ptr [rdx + 4*rdi + 96]
+	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
+	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
+	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
+	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm1
 .LBB1_668:
 	cmp	rcx, rax
 	je	.LBB1_737
@@ -7982,10 +7982,14 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	r9b, 1
 	je	.LBB1_676
 # %bb.675:
-	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
+	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
+	vpsubb	ymm1, ymm1, ymm0
+	vpsubb	ymm2, ymm2, ymm0
+	vpsubb	ymm3, ymm3, ymm0
+	vpsubb	ymm0, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
@@ -8040,14 +8044,10 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	r9b, 1
 	je	.LBB1_700
 # %bb.699:
-	vmovdqu	ymm1, ymmword ptr [rdx + rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + rdi + 96]
-	vpsubb	ymm1, ymm1, ymm0
-	vpsubb	ymm2, ymm2, ymm0
-	vpsubb	ymm3, ymm3, ymm0
-	vpsubb	ymm0, ymm4, ymm0
+	vpaddb	ymm1, ymm0, ymmword ptr [rdx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rdx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rdx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rdx + rdi + 96]
 	vmovdqu	ymmword ptr [r8 + rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
@@ -8062,10 +8062,14 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	r9b, 1
 	je	.LBB1_708
 # %bb.707:
-	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
+	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
+	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
+	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
+	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
+	vpsubd	ymm1, ymm1, ymm0
+	vpsubd	ymm2, ymm2, ymm0
+	vpsubd	ymm3, ymm3, ymm0
+	vpsubd	ymm0, ymm4, ymm0
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
@@ -8120,14 +8124,10 @@ arithmetic_arr_scalar_avx2:             # @arithmetic_arr_scalar_avx2
 	test	r9b, 1
 	je	.LBB1_732
 # %bb.731:
-	vmovdqu	ymm1, ymmword ptr [rdx + 4*rdi]
-	vmovdqu	ymm2, ymmword ptr [rdx + 4*rdi + 32]
-	vmovdqu	ymm3, ymmword ptr [rdx + 4*rdi + 64]
-	vmovdqu	ymm4, ymmword ptr [rdx + 4*rdi + 96]
-	vpsubd	ymm1, ymm1, ymm0
-	vpsubd	ymm2, ymm2, ymm0
-	vpsubd	ymm3, ymm3, ymm0
-	vpsubd	ymm0, ymm4, ymm0
+	vpaddd	ymm1, ymm0, ymmword ptr [rdx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rdx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rdx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rdx + 4*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
@@ -8178,7 +8178,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.9:
-	mov	eax, dword ptr [rdx]
+	mov	r11d, dword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 32
 	jb	.LBB2_10
@@ -8193,35 +8193,35 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 .LBB2_10:
 	xor	esi, esi
 .LBB2_421:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_423
 .LBB2_422:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_422
 .LBB2_423:
-	cmp	r9, 3
+	cmp	rdx, 3
 	jb	.LBB2_737
 .LBB2_424:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_424
@@ -8385,7 +8385,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.35:
-	mov	r11d, dword ptr [rdx]
+	mov	eax, dword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 32
 	jb	.LBB2_36
@@ -8400,35 +8400,35 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 .LBB2_36:
 	xor	esi, esi
 .LBB2_445:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_447
 .LBB2_446:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_446
 .LBB2_447:
-	cmp	rdx, 3
+	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_448:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_448
@@ -8471,7 +8471,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	and	rdi, 3
 	je	.LBB2_455
 .LBB2_454:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
 	vmovsd	qword ptr [r8 + 8*rdx], xmm1
 	add	rdx, 1
 	add	rdi, -1
@@ -8480,13 +8480,13 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	cmp	rsi, 3
 	jb	.LBB2_737
 .LBB2_456:                              # =>This Inner Loop Header: Depth=1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
 	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
 	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
 	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
+	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
 	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
 	add	rdx, 4
 	cmp	rax, rdx
@@ -8648,7 +8648,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	and	rdi, 3
 	je	.LBB2_479
 .LBB2_478:                              # =>This Inner Loop Header: Depth=1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
 	vmovsd	qword ptr [r8 + 8*rdx], xmm1
 	add	rdx, 1
 	add	rdi, -1
@@ -8657,13 +8657,13 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	cmp	rsi, 3
 	jb	.LBB2_737
 .LBB2_480:                              # =>This Inner Loop Header: Depth=1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx]
 	vmovsd	qword ptr [r8 + 8*rdx], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 8]
 	vmovsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 16]
 	vmovsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	vsubsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
+	vaddsd	xmm1, xmm0, qword ptr [rcx + 8*rdx + 24]
 	vmovsd	qword ptr [r8 + 8*rdx + 24], xmm1
 	add	rdx, 4
 	cmp	rax, rdx
@@ -8701,8 +8701,8 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	and	rdi, 3
 	je	.LBB2_487
 .LBB2_486:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
 	mov	byte ptr [r8 + rsi], dl
 	add	rsi, 1
 	add	rdi, -1
@@ -8711,17 +8711,17 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_488:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
 	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 1]
 	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 2]
 	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 3]
 	mov	byte ptr [r8 + rsi + 3], dl
 	add	rsi, 4
 	cmp	r10, rsi
@@ -8875,8 +8875,8 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	and	rdi, 3
 	je	.LBB2_511
 .LBB2_510:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
 	mov	byte ptr [r8 + rsi], dl
 	add	rsi, 1
 	add	rdi, -1
@@ -8885,17 +8885,17 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_512:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
 	mov	byte ptr [r8 + rsi], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 1]
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
 	mov	byte ptr [r8 + rsi + 1], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 2]
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
 	mov	byte ptr [r8 + rsi + 2], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 3]
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
 	mov	byte ptr [r8 + rsi + 3], dl
 	add	rsi, 4
 	cmp	r10, rsi
@@ -8911,7 +8911,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.88:
-	mov	rax, qword ptr [rdx]
+	mov	r11, qword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 16
 	jb	.LBB2_89
@@ -8926,35 +8926,35 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 .LBB2_89:
 	xor	esi, esi
 .LBB2_517:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_519
 .LBB2_518:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_518
 .LBB2_519:
-	cmp	r9, 3
+	cmp	rdx, 3
 	jb	.LBB2_737
 .LBB2_520:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_520
@@ -9085,7 +9085,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.103:
-	mov	r11, qword ptr [rdx]
+	mov	rax, qword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 16
 	jb	.LBB2_104
@@ -9100,35 +9100,35 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 .LBB2_104:
 	xor	esi, esi
 .LBB2_541:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_543
 .LBB2_542:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_542
-.LBB2_543:
-	cmp	rdx, 3
-	jb	.LBB2_737
-.LBB2_544:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_542
+.LBB2_543:
+	cmp	r9, 3
+	jb	.LBB2_737
+.LBB2_544:                              # =>This Inner Loop Header: Depth=1
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_544
@@ -9159,8 +9159,8 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	and	rdx, 3
 	je	.LBB2_551
 .LBB2_550:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, ax
+	mov	edi, eax
+	sub	di, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rdx, -1
@@ -9169,17 +9169,17 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_552:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
 	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
 	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
 	mov	word ptr [r8 + 2*rsi + 6], dx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -9211,8 +9211,8 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	and	rdx, 3
 	je	.LBB2_559
 .LBB2_558:                              # =>This Inner Loop Header: Depth=1
-	movzx	edi, word ptr [rcx + 2*rsi]
-	add	di, ax
+	mov	edi, eax
+	sub	di, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rdx, -1
@@ -9221,17 +9221,17 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_560:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
 	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
 	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
 	mov	word ptr [r8 + 2*rsi + 6], dx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -9471,8 +9471,8 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	and	rdx, 3
 	je	.LBB2_599
 .LBB2_598:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, eax
-	sub	di, word ptr [rcx + 2*rsi]
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, ax
 	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rdx, -1
@@ -9481,17 +9481,17 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_600:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi + 6], dx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -9523,8 +9523,8 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	and	rdx, 3
 	je	.LBB2_607
 .LBB2_606:                              # =>This Inner Loop Header: Depth=1
-	mov	edi, eax
-	sub	di, word ptr [rcx + 2*rsi]
+	movzx	edi, word ptr [rcx + 2*rsi]
+	add	di, ax
 	mov	word ptr [r8 + 2*rsi], di
 	add	rsi, 1
 	add	rdx, -1
@@ -9533,17 +9533,17 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_608:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi + 6], dx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -9553,7 +9553,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.130:
-	mov	rax, qword ptr [rdx]
+	mov	r11, qword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 16
 	jb	.LBB2_131
@@ -9568,35 +9568,35 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 .LBB2_131:
 	xor	esi, esi
 .LBB2_613:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_615
 .LBB2_614:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_614
 .LBB2_615:
-	cmp	r9, 3
+	cmp	rdx, 3
 	jb	.LBB2_737
 .LBB2_616:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_616
@@ -9627,7 +9627,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	and	rdi, 3
 	je	.LBB2_623
 .LBB2_622:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
 	vmovss	dword ptr [r8 + 4*rdx], xmm1
 	add	rdx, 1
 	add	rdi, -1
@@ -9636,13 +9636,13 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	cmp	rsi, 3
 	jb	.LBB2_737
 .LBB2_624:                              # =>This Inner Loop Header: Depth=1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
 	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
 	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
 	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
-	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
+	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
 	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
 	add	rdx, 4
 	cmp	rax, rdx
@@ -9850,7 +9850,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.148:
-	mov	r11, qword ptr [rdx]
+	mov	rax, qword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 16
 	jb	.LBB2_149
@@ -9865,35 +9865,35 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 .LBB2_149:
 	xor	esi, esi
 .LBB2_661:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_663
 .LBB2_662:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_662
 .LBB2_663:
-	cmp	rdx, 3
+	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_664:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_664
@@ -9924,7 +9924,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	and	rdi, 3
 	je	.LBB2_671
 .LBB2_670:                              # =>This Inner Loop Header: Depth=1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
 	vmovss	dword ptr [r8 + 4*rdx], xmm1
 	add	rdx, 1
 	add	rdi, -1
@@ -9933,13 +9933,13 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	cmp	rsi, 3
 	jb	.LBB2_737
 .LBB2_672:                              # =>This Inner Loop Header: Depth=1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx]
 	vmovss	dword ptr [r8 + 4*rdx], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 4]
 	vmovss	dword ptr [r8 + 4*rdx + 4], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 8]
 	vmovss	dword ptr [r8 + 4*rdx + 8], xmm1
-	vsubss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
+	vaddss	xmm1, xmm0, dword ptr [rcx + 4*rdx + 12]
 	vmovss	dword ptr [r8 + 4*rdx + 12], xmm1
 	add	rdx, 4
 	cmp	rax, rdx
@@ -9971,8 +9971,8 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	and	rdi, 3
 	je	.LBB2_679
 .LBB2_678:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
 	mov	byte ptr [r8 + rsi], dl
 	add	rsi, 1
 	add	rdi, -1
@@ -9981,17 +9981,17 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_680:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi]
 	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 1]
 	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 2]
 	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
+	mov	edx, eax
+	sub	dl, byte ptr [rcx + rsi + 3]
 	mov	byte ptr [r8 + rsi + 3], dl
 	add	rsi, 4
 	cmp	r10, rsi
@@ -10127,8 +10127,8 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	and	rdi, 3
 	je	.LBB2_703
 .LBB2_702:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
 	mov	byte ptr [r8 + rsi], dl
 	add	rsi, 1
 	add	rdi, -1
@@ -10137,17 +10137,17 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_704:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi]
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
 	mov	byte ptr [r8 + rsi], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 1]
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
 	mov	byte ptr [r8 + rsi + 1], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 2]
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
 	mov	byte ptr [r8 + rsi + 2], dl
-	mov	edx, eax
-	sub	dl, byte ptr [rcx + rsi + 3]
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
 	mov	byte ptr [r8 + rsi + 3], dl
 	add	rsi, 4
 	cmp	r10, rsi
@@ -10157,7 +10157,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.166:
-	mov	eax, dword ptr [rdx]
+	mov	r11d, dword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 32
 	jb	.LBB2_167
@@ -10172,35 +10172,35 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 .LBB2_167:
 	xor	esi, esi
 .LBB2_709:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_711
 .LBB2_710:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_710
 .LBB2_711:
-	cmp	r9, 3
+	cmp	rdx, 3
 	jb	.LBB2_737
 .LBB2_712:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_712
@@ -10313,7 +10313,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.175:
-	mov	r11d, dword ptr [rdx]
+	mov	eax, dword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 32
 	jb	.LBB2_176
@@ -10328,35 +10328,35 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 .LBB2_176:
 	xor	esi, esi
 .LBB2_733:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_735
 .LBB2_734:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_734
 .LBB2_735:
-	cmp	rdx, 3
+	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_736:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_736
@@ -10364,7 +10364,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 .LBB2_297:
 	mov	esi, r10d
 	and	esi, -32
-	vmovd	xmm0, eax
+	vmovd	xmm0, r11d
 	vpbroadcastd	ymm0, xmm0
 	lea	rdx, [rsi - 32]
 	mov	r9, rdx
@@ -10378,18 +10378,18 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rdx
 	xor	edi, edi
 .LBB2_299:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
@@ -10475,7 +10475,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 .LBB2_306:
 	mov	esi, r10d
 	and	esi, -32
-	vmovd	xmm0, r11d
+	vmovd	xmm0, eax
 	vpbroadcastd	ymm0, xmm0
 	lea	rdx, [rsi - 32]
 	mov	r9, rdx
@@ -10489,18 +10489,18 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rdx
 	xor	edi, edi
 .LBB2_308:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
@@ -10525,18 +10525,18 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rsi
 	xor	edi, edi
 .LBB2_311:                              # =>This Inner Loop Header: Depth=1
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
 	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
 	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
 	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
 	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
-	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
+	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
 	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
 	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
 	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
@@ -10633,18 +10633,18 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rsi
 	xor	edi, edi
 .LBB2_320:                              # =>This Inner Loop Header: Depth=1
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 96]
 	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
 	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
 	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
 	vmovupd	ymmword ptr [r8 + 8*rdi + 96], ymm5
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
-	vsubpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi + 128]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 160]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 192]
+	vaddpd	ymm5, ymm1, ymmword ptr [rcx + 8*rdi + 224]
 	vmovupd	ymmword ptr [r8 + 8*rdi + 128], ymm2
 	vmovupd	ymmword ptr [r8 + 8*rdi + 160], ymm3
 	vmovupd	ymmword ptr [r8 + 8*rdi + 192], ymm4
@@ -10670,18 +10670,18 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rdx
 	xor	edi, edi
 .LBB2_323:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
 	vmovdqu	ymmword ptr [r8 + rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
 	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
@@ -10781,18 +10781,18 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rdx
 	xor	edi, edi
 .LBB2_332:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
 	vmovdqu	ymmword ptr [r8 + rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
 	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
@@ -10804,7 +10804,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 .LBB2_333:
 	mov	esi, r10d
 	and	esi, -16
-	vmovq	xmm0, rax
+	vmovq	xmm0, r11
 	vpbroadcastq	ymm0, xmm0
 	lea	rdx, [rsi - 16]
 	mov	r9, rdx
@@ -10818,18 +10818,18 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rdx
 	xor	edi, edi
 .LBB2_335:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
@@ -10915,7 +10915,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 .LBB2_342:
 	mov	esi, r10d
 	and	esi, -16
-	vmovq	xmm0, r11
+	vmovq	xmm0, rax
 	vpbroadcastq	ymm0, xmm0
 	lea	rdx, [rsi - 16]
 	mov	r9, rdx
@@ -10929,18 +10929,18 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rdx
 	xor	edi, edi
 .LBB2_344:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
@@ -10966,12 +10966,12 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rdx
 	xor	edi, edi
 .LBB2_347:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
 	add	rdi, 64
@@ -10995,12 +10995,12 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rdx
 	xor	edi, edi
 .LBB2_350:                              # =>This Inner Loop Header: Depth=1
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
 	add	rdi, 64
@@ -11140,12 +11140,12 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rdx
 	xor	edi, edi
 .LBB2_365:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
 	add	rdi, 64
@@ -11169,12 +11169,12 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rdx
 	xor	edi, edi
 .LBB2_368:                              # =>This Inner Loop Header: Depth=1
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 32]
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm2
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
-	vpsubw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi + 64]
+	vpaddw	ymm2, ymm0, ymmword ptr [rcx + 2*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 64], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 96], ymm2
 	add	rdi, 64
@@ -11184,7 +11184,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 .LBB2_369:
 	mov	esi, r10d
 	and	esi, -16
-	vmovq	xmm0, rax
+	vmovq	xmm0, r11
 	vpbroadcastq	ymm0, xmm0
 	lea	rdx, [rsi - 16]
 	mov	r9, rdx
@@ -11198,18 +11198,18 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rdx
 	xor	edi, edi
 .LBB2_371:                              # =>This Inner Loop Header: Depth=1
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
@@ -11234,18 +11234,18 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rsi
 	xor	edi, edi
 .LBB2_374:                              # =>This Inner Loop Header: Depth=1
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
 	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
 	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
 	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
 	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
-	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
+	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
 	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
 	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
 	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
@@ -11403,7 +11403,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 .LBB2_387:
 	mov	esi, r10d
 	and	esi, -16
-	vmovq	xmm0, r11
+	vmovq	xmm0, rax
 	vpbroadcastq	ymm0, xmm0
 	lea	rdx, [rsi - 16]
 	mov	r9, rdx
@@ -11417,18 +11417,18 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rdx
 	xor	edi, edi
 .LBB2_389:                              # =>This Inner Loop Header: Depth=1
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 96], ymm4
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
-	vpsubq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi + 128]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 160]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 192]
+	vpaddq	ymm4, ymm0, ymmword ptr [rcx + 8*rdi + 224]
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 192], ymm3
@@ -11453,18 +11453,18 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rsi
 	xor	edi, edi
 .LBB2_392:                              # =>This Inner Loop Header: Depth=1
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 96]
 	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
 	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
 	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
 	vmovups	ymmword ptr [r8 + 4*rdi + 96], ymm5
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
-	vsubps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi + 128]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 160]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 192]
+	vaddps	ymm5, ymm1, ymmword ptr [rcx + 4*rdi + 224]
 	vmovups	ymmword ptr [r8 + 4*rdi + 128], ymm2
 	vmovups	ymmword ptr [r8 + 4*rdi + 160], ymm3
 	vmovups	ymmword ptr [r8 + 4*rdi + 192], ymm4
@@ -11490,18 +11490,18 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rdx
 	xor	edi, edi
 .LBB2_395:                              # =>This Inner Loop Header: Depth=1
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
 	vmovdqu	ymmword ptr [r8 + rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
 	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
@@ -11601,18 +11601,18 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rdx
 	xor	edi, edi
 .LBB2_404:                              # =>This Inner Loop Header: Depth=1
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 96]
 	vmovdqu	ymmword ptr [r8 + rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + rdi + 96], ymm4
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
-	vpsubb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi + 128]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 160]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 192]
+	vpaddb	ymm4, ymm0, ymmword ptr [rcx + rdi + 224]
 	vmovdqu	ymmword ptr [r8 + rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 192], ymm3
@@ -11624,7 +11624,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 .LBB2_405:
 	mov	esi, r10d
 	and	esi, -32
-	vmovd	xmm0, eax
+	vmovd	xmm0, r11d
 	vpbroadcastd	ymm0, xmm0
 	lea	rdx, [rsi - 32]
 	mov	r9, rdx
@@ -11638,18 +11638,18 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rdx
 	xor	edi, edi
 .LBB2_407:                              # =>This Inner Loop Header: Depth=1
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
@@ -11735,7 +11735,7 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 .LBB2_414:
 	mov	esi, r10d
 	and	esi, -32
-	vmovd	xmm0, r11d
+	vmovd	xmm0, eax
 	vpbroadcastd	ymm0, xmm0
 	lea	rdx, [rsi - 32]
 	mov	r9, rdx
@@ -11749,18 +11749,18 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	neg	rdx
 	xor	edi, edi
 .LBB2_416:                              # =>This Inner Loop Header: Depth=1
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 96], ymm4
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
-	vpsubd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi + 128]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 160]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 192]
+	vpaddd	ymm4, ymm0, ymmword ptr [rcx + 4*rdi + 224]
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 128], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 160], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 192], ymm3
@@ -11775,10 +11775,10 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_420
 # %bb.419:
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
@@ -11829,10 +11829,10 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_444
 # %bb.443:
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
@@ -11847,10 +11847,10 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_452
 # %bb.451:
-	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vaddpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
 	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
 	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
 	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
@@ -11901,10 +11901,10 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_476
 # %bb.475:
-	vsubpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
-	vsubpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
-	vsubpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
-	vsubpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
+	vaddpd	ymm2, ymm1, ymmword ptr [rcx + 8*rdi]
+	vaddpd	ymm3, ymm1, ymmword ptr [rcx + 8*rdi + 32]
+	vaddpd	ymm4, ymm1, ymmword ptr [rcx + 8*rdi + 64]
+	vaddpd	ymm1, ymm1, ymmword ptr [rcx + 8*rdi + 96]
 	vmovupd	ymmword ptr [r8 + 8*rdi], ymm2
 	vmovupd	ymmword ptr [r8 + 8*rdi + 32], ymm3
 	vmovupd	ymmword ptr [r8 + 8*rdi + 64], ymm4
@@ -11919,10 +11919,10 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_484
 # %bb.483:
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
 	vmovdqu	ymmword ptr [r8 + rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
@@ -11973,10 +11973,10 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_508
 # %bb.507:
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
 	vmovdqu	ymmword ptr [r8 + rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
@@ -11991,10 +11991,10 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_516
 # %bb.515:
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
@@ -12045,10 +12045,10 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_540
 # %bb.539:
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
@@ -12063,8 +12063,8 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_548
 # %bb.547:
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
 .LBB2_548:
@@ -12077,8 +12077,8 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_556
 # %bb.555:
-	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
 .LBB2_556:
@@ -12147,8 +12147,8 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_596
 # %bb.595:
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
 .LBB2_596:
@@ -12161,8 +12161,8 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_604
 # %bb.603:
-	vpsubw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
-	vpsubw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
+	vpaddw	ymm1, ymm0, ymmword ptr [rcx + 2*rdi]
+	vpaddw	ymm0, ymm0, ymmword ptr [rcx + 2*rdi + 32]
 	vmovdqu	ymmword ptr [r8 + 2*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 2*rdi + 32], ymm0
 .LBB2_604:
@@ -12175,10 +12175,10 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_612
 # %bb.611:
-	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
@@ -12193,10 +12193,10 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_620
 # %bb.619:
-	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vaddps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
 	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
 	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
 	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
@@ -12283,10 +12283,10 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_660
 # %bb.659:
-	vpsubq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
-	vpsubq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
-	vpsubq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
-	vpsubq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
+	vpaddq	ymm1, ymm0, ymmword ptr [rcx + 8*rdi]
+	vpaddq	ymm2, ymm0, ymmword ptr [rcx + 8*rdi + 32]
+	vpaddq	ymm3, ymm0, ymmword ptr [rcx + 8*rdi + 64]
+	vpaddq	ymm0, ymm0, ymmword ptr [rcx + 8*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 8*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 8*rdi + 64], ymm3
@@ -12301,10 +12301,10 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_668
 # %bb.667:
-	vsubps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
-	vsubps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
-	vsubps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
-	vsubps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
+	vaddps	ymm2, ymm1, ymmword ptr [rcx + 4*rdi]
+	vaddps	ymm3, ymm1, ymmword ptr [rcx + 4*rdi + 32]
+	vaddps	ymm4, ymm1, ymmword ptr [rcx + 4*rdi + 64]
+	vaddps	ymm1, ymm1, ymmword ptr [rcx + 4*rdi + 96]
 	vmovups	ymmword ptr [r8 + 4*rdi], ymm2
 	vmovups	ymmword ptr [r8 + 4*rdi + 32], ymm3
 	vmovups	ymmword ptr [r8 + 4*rdi + 64], ymm4
@@ -12319,10 +12319,10 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_676
 # %bb.675:
-	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
 	vmovdqu	ymmword ptr [r8 + rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
@@ -12373,10 +12373,10 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_700
 # %bb.699:
-	vpsubb	ymm1, ymm0, ymmword ptr [rcx + rdi]
-	vpsubb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
-	vpsubb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
-	vpsubb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
+	vpaddb	ymm1, ymm0, ymmword ptr [rcx + rdi]
+	vpaddb	ymm2, ymm0, ymmword ptr [rcx + rdi + 32]
+	vpaddb	ymm3, ymm0, ymmword ptr [rcx + rdi + 64]
+	vpaddb	ymm0, ymm0, ymmword ptr [rcx + rdi + 96]
 	vmovdqu	ymmword ptr [r8 + rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + rdi + 64], ymm3
@@ -12391,10 +12391,10 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_708
 # %bb.707:
-	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
@@ -12445,10 +12445,10 @@ arithmetic_scalar_arr_avx2:             # @arithmetic_scalar_arr_avx2
 	test	r9b, 1
 	je	.LBB2_732
 # %bb.731:
-	vpsubd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
-	vpsubd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
-	vpsubd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
-	vpsubd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
+	vpaddd	ymm1, ymm0, ymmword ptr [rcx + 4*rdi]
+	vpaddd	ymm2, ymm0, ymmword ptr [rcx + 4*rdi + 32]
+	vpaddd	ymm3, ymm0, ymmword ptr [rcx + 4*rdi + 64]
+	vpaddd	ymm0, ymm0, ymmword ptr [rcx + 4*rdi + 96]
 	vmovdqu	ymmword ptr [r8 + 4*rdi], ymm1
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 32], ymm2
 	vmovdqu	ymmword ptr [r8 + 4*rdi + 64], ymm3
diff --git a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s
index 9862cdb8a68..f1566f738e9 100644
--- a/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s
+++ b/go/arrow/compute/internal/kernels/_lib/base_arithmetic_sse4_amd64.s
@@ -19,65 +19,65 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	jne	.LBB0_697
 # %bb.3:
 	cmp	edi, 6
-	jg	.LBB0_198
+	jg	.LBB0_371
 # %bb.4:
 	cmp	edi, 3
 	jle	.LBB0_5
-# %bb.192:
+# %bb.365:
 	cmp	edi, 4
-	je	.LBB0_239
-# %bb.193:
+	je	.LBB0_412
+# %bb.366:
 	cmp	edi, 5
-	je	.LBB0_255
-# %bb.194:
+	je	.LBB0_428
+# %bb.367:
 	cmp	edi, 6
 	jne	.LBB0_697
-# %bb.195:
+# %bb.368:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.196:
+# %bb.369:
 	mov	r10d, r9d
 	cmp	r9d, 8
-	jae	.LBB0_271
-# %bb.197:
+	jae	.LBB0_444
+# %bb.370:
 	xor	esi, esi
-.LBB0_280:
+.LBB0_453:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_282
-.LBB0_281:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
+	je	.LBB0_455
+.LBB0_454:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_281
-.LBB0_282:
+	jne	.LBB0_454
+.LBB0_455:
 	cmp	r9, 3
 	jb	.LBB0_697
-.LBB0_283:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
+.LBB0_456:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
 	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
 	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
 	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_283
+	jne	.LBB0_456
 	jmp	.LBB0_697
 .LBB0_10:
 	cmp	sil, 2
-	je	.LBB0_358
+	je	.LBB0_192
 # %bb.11:
 	cmp	sil, 3
 	jne	.LBB0_697
@@ -197,118 +197,118 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	r10, rsi
 	jne	.LBB0_117
 	jmp	.LBB0_697
-.LBB0_358:
+.LBB0_192:
 	cmp	edi, 6
-	jg	.LBB0_371
-# %bb.359:
+	jg	.LBB0_205
+# %bb.193:
 	cmp	edi, 3
-	jle	.LBB0_360
-# %bb.365:
+	jle	.LBB0_194
+# %bb.199:
 	cmp	edi, 4
-	je	.LBB0_412
-# %bb.366:
+	je	.LBB0_246
+# %bb.200:
 	cmp	edi, 5
-	je	.LBB0_428
-# %bb.367:
+	je	.LBB0_262
+# %bb.201:
 	cmp	edi, 6
 	jne	.LBB0_697
-# %bb.368:
+# %bb.202:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.369:
+# %bb.203:
 	mov	r10d, r9d
 	cmp	r9d, 8
-	jae	.LBB0_444
-# %bb.370:
+	jae	.LBB0_278
+# %bb.204:
 	xor	esi, esi
-.LBB0_453:
+.LBB0_287:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_455
-.LBB0_454:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
+	je	.LBB0_289
+.LBB0_288:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_454
-.LBB0_455:
+	jne	.LBB0_288
+.LBB0_289:
 	cmp	r9, 3
 	jb	.LBB0_697
-.LBB0_456:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
+.LBB0_290:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
 	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
 	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
 	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_456
+	jne	.LBB0_290
 	jmp	.LBB0_697
-.LBB0_198:
+.LBB0_371:
 	cmp	edi, 8
-	jle	.LBB0_199
-# %bb.204:
+	jle	.LBB0_372
+# %bb.377:
 	cmp	edi, 9
-	je	.LBB0_313
-# %bb.205:
+	je	.LBB0_486
+# %bb.378:
 	cmp	edi, 11
-	je	.LBB0_329
-# %bb.206:
+	je	.LBB0_502
+# %bb.379:
 	cmp	edi, 12
 	jne	.LBB0_697
-# %bb.207:
+# %bb.380:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.208:
+# %bb.381:
 	mov	r10d, r9d
 	cmp	r9d, 4
-	jae	.LBB0_345
-# %bb.209:
+	jae	.LBB0_518
+# %bb.382:
 	xor	esi, esi
-.LBB0_354:
+.LBB0_527:
 	mov	rax, rsi
 	not	rax
 	add	rax, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_356
-.LBB0_355:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi]
+	je	.LBB0_529
+.LBB0_528:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi]
 	movsd	qword ptr [r8 + 8*rsi], xmm0
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_355
-.LBB0_356:
+	jne	.LBB0_528
+.LBB0_529:
 	cmp	rax, 3
 	jb	.LBB0_697
-.LBB0_357:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi]
+.LBB0_530:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi]
 	movsd	qword ptr [r8 + 8*rsi], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 8]
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 8]
 	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 16]
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 16]
 	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
-	addsd	xmm0, qword ptr [rdx + 8*rsi + 24]
+	movsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
+	subsd	xmm0, qword ptr [rcx + 8*rsi + 24]
 	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_357
+	jne	.LBB0_530
 	jmp	.LBB0_697
 .LBB0_537:
 	cmp	edi, 8
@@ -420,64 +420,64 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	r10, rsi
 	jne	.LBB0_191
 	jmp	.LBB0_697
-.LBB0_371:
+.LBB0_205:
 	cmp	edi, 8
-	jle	.LBB0_372
-# %bb.377:
+	jle	.LBB0_206
+# %bb.211:
 	cmp	edi, 9
-	je	.LBB0_486
-# %bb.378:
+	je	.LBB0_320
+# %bb.212:
 	cmp	edi, 11
-	je	.LBB0_502
-# %bb.379:
+	je	.LBB0_336
+# %bb.213:
 	cmp	edi, 12
 	jne	.LBB0_697
-# %bb.380:
+# %bb.214:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.381:
+# %bb.215:
 	mov	r10d, r9d
 	cmp	r9d, 4
-	jae	.LBB0_518
-# %bb.382:
+	jae	.LBB0_352
+# %bb.216:
 	xor	esi, esi
-.LBB0_527:
+.LBB0_361:
 	mov	rax, rsi
 	not	rax
 	add	rax, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_529
-.LBB0_528:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi]
+	je	.LBB0_363
+.LBB0_362:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi]
 	movsd	qword ptr [r8 + 8*rsi], xmm0
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_528
-.LBB0_529:
+	jne	.LBB0_362
+.LBB0_363:
 	cmp	rax, 3
 	jb	.LBB0_697
-.LBB0_530:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm0, qword ptr [rdx + 8*rsi]   # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi]
+.LBB0_364:                              # =>This Inner Loop Header: Depth=1
+	movsd	xmm0, qword ptr [rcx + 8*rsi]   # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi]
 	movsd	qword ptr [r8 + 8*rsi], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 8] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 8]
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 8] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 8]
 	movsd	qword ptr [r8 + 8*rsi + 8], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 16] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 16]
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 16] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 16]
 	movsd	qword ptr [r8 + 8*rsi + 16], xmm0
-	movsd	xmm0, qword ptr [rdx + 8*rsi + 24] # xmm0 = mem[0],zero
-	subsd	xmm0, qword ptr [rcx + 8*rsi + 24]
+	movsd	xmm0, qword ptr [rcx + 8*rsi + 24] # xmm0 = mem[0],zero
+	addsd	xmm0, qword ptr [rdx + 8*rsi + 24]
 	movsd	qword ptr [r8 + 8*rsi + 24], xmm0
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_530
+	jne	.LBB0_364
 	jmp	.LBB0_697
 .LBB0_5:
 	cmp	edi, 2
-	je	.LBB0_210
+	je	.LBB0_383
 # %bb.6:
 	cmp	edi, 3
 	jne	.LBB0_697
@@ -487,42 +487,42 @@ arithmetic_sse4:                        # @arithmetic_sse4
 # %bb.8:
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jae	.LBB0_226
+	jae	.LBB0_399
 # %bb.9:
 	xor	esi, esi
-.LBB0_235:
+.LBB0_408:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_237
-.LBB0_236:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
+	je	.LBB0_410
+.LBB0_409:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
 	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_236
-.LBB0_237:
+	jne	.LBB0_409
+.LBB0_410:
 	cmp	r9, 3
 	jb	.LBB0_697
-.LBB0_238:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
+.LBB0_411:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
 	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
 	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
 	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
 	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_238
+	jne	.LBB0_411
 	jmp	.LBB0_697
 .LBB0_14:
 	cmp	edi, 2
@@ -622,103 +622,103 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	r10, rsi
 	jne	.LBB0_72
 	jmp	.LBB0_697
-.LBB0_360:
+.LBB0_194:
 	cmp	edi, 2
-	je	.LBB0_383
-# %bb.361:
+	je	.LBB0_217
+# %bb.195:
 	cmp	edi, 3
 	jne	.LBB0_697
-# %bb.362:
+# %bb.196:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.363:
+# %bb.197:
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jae	.LBB0_399
-# %bb.364:
+	jae	.LBB0_233
+# %bb.198:
 	xor	esi, esi
-.LBB0_408:
+.LBB0_242:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_410
-.LBB0_409:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
+	je	.LBB0_244
+.LBB0_243:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
 	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_409
-.LBB0_410:
+	jne	.LBB0_243
+.LBB0_244:
 	cmp	r9, 3
 	jb	.LBB0_697
-.LBB0_411:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
+.LBB0_245:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
 	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
 	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
 	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
 	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_411
+	jne	.LBB0_245
 	jmp	.LBB0_697
-.LBB0_199:
+.LBB0_372:
 	cmp	edi, 7
-	je	.LBB0_284
-# %bb.200:
+	je	.LBB0_457
+# %bb.373:
 	cmp	edi, 8
 	jne	.LBB0_697
-# %bb.201:
+# %bb.374:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.202:
+# %bb.375:
 	mov	r10d, r9d
 	cmp	r9d, 4
-	jae	.LBB0_300
-# %bb.203:
+	jae	.LBB0_473
+# %bb.376:
 	xor	esi, esi
-.LBB0_309:
+.LBB0_482:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_311
-.LBB0_310:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
+	je	.LBB0_484
+.LBB0_483:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_310
-.LBB0_311:
+	jne	.LBB0_483
+.LBB0_484:
 	cmp	r9, 3
 	jb	.LBB0_697
-.LBB0_312:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
+.LBB0_485:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
 	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
 	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
 	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_312
+	jne	.LBB0_485
 	jmp	.LBB0_697
 .LBB0_538:
 	cmp	edi, 7
@@ -818,140 +818,140 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	r10, rsi
 	jne	.LBB0_146
 	jmp	.LBB0_697
-.LBB0_372:
+.LBB0_206:
 	cmp	edi, 7
-	je	.LBB0_457
-# %bb.373:
+	je	.LBB0_291
+# %bb.207:
 	cmp	edi, 8
 	jne	.LBB0_697
-# %bb.374:
+# %bb.208:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.375:
+# %bb.209:
 	mov	r10d, r9d
 	cmp	r9d, 4
-	jae	.LBB0_473
-# %bb.376:
+	jae	.LBB0_307
+# %bb.210:
 	xor	esi, esi
-.LBB0_482:
+.LBB0_316:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_484
-.LBB0_483:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
+	je	.LBB0_318
+.LBB0_317:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_483
-.LBB0_484:
+	jne	.LBB0_317
+.LBB0_318:
 	cmp	r9, 3
 	jb	.LBB0_697
-.LBB0_485:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
+.LBB0_319:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
 	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
 	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
 	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_485
+	jne	.LBB0_319
 	jmp	.LBB0_697
-.LBB0_239:
+.LBB0_412:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.240:
+# %bb.413:
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jae	.LBB0_242
-# %bb.241:
+	jae	.LBB0_415
+# %bb.414:
 	xor	esi, esi
-.LBB0_251:
+.LBB0_424:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_253
-.LBB0_252:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
+	je	.LBB0_426
+.LBB0_425:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], ax
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_252
-.LBB0_253:
+	jne	.LBB0_425
+.LBB0_426:
 	cmp	r9, 3
 	jb	.LBB0_697
-.LBB0_254:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
+.LBB0_427:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
 	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
 	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
 	mov	word ptr [r8 + 2*rsi + 6], ax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_254
+	jne	.LBB0_427
 	jmp	.LBB0_697
-.LBB0_255:
+.LBB0_428:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.256:
+# %bb.429:
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jae	.LBB0_258
-# %bb.257:
+	jae	.LBB0_431
+# %bb.430:
 	xor	esi, esi
-.LBB0_267:
+.LBB0_440:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_269
-.LBB0_268:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
+	je	.LBB0_442
+.LBB0_441:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], ax
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_268
-.LBB0_269:
+	jne	.LBB0_441
+.LBB0_442:
 	cmp	r9, 3
 	jb	.LBB0_697
-.LBB0_270:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rcx + 2*rsi]
-	add	ax, word ptr [rdx + 2*rsi]
+.LBB0_443:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rdx + 2*rsi]
+	sub	ax, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 2]
-	add	ax, word ptr [rdx + 2*rsi + 2]
+	movzx	eax, word ptr [rdx + 2*rsi + 2]
+	sub	ax, word ptr [rcx + 2*rsi + 2]
 	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 4]
-	add	ax, word ptr [rdx + 2*rsi + 4]
+	movzx	eax, word ptr [rdx + 2*rsi + 4]
+	sub	ax, word ptr [rcx + 2*rsi + 4]
 	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rcx + 2*rsi + 6]
-	add	ax, word ptr [rdx + 2*rsi + 6]
+	movzx	eax, word ptr [rdx + 2*rsi + 6]
+	sub	ax, word ptr [rcx + 2*rsi + 6]
 	mov	word ptr [r8 + 2*rsi + 6], ax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_270
+	jne	.LBB0_443
 	jmp	.LBB0_697
 .LBB0_578:
 	test	r9d, r9d
@@ -1125,177 +1125,177 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	r10, rsi
 	jne	.LBB0_104
 	jmp	.LBB0_697
-.LBB0_412:
+.LBB0_246:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.413:
+# %bb.247:
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jae	.LBB0_415
-# %bb.414:
+	jae	.LBB0_249
+# %bb.248:
 	xor	esi, esi
-.LBB0_424:
+.LBB0_258:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_426
-.LBB0_425:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
+	je	.LBB0_260
+.LBB0_259:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], ax
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_425
-.LBB0_426:
+	jne	.LBB0_259
+.LBB0_260:
 	cmp	r9, 3
 	jb	.LBB0_697
-.LBB0_427:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
+.LBB0_261:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
 	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
 	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
 	mov	word ptr [r8 + 2*rsi + 6], ax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_427
+	jne	.LBB0_261
 	jmp	.LBB0_697
-.LBB0_428:
+.LBB0_262:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.429:
+# %bb.263:
 	mov	r10d, r9d
 	cmp	r9d, 16
-	jae	.LBB0_431
-# %bb.430:
+	jae	.LBB0_265
+# %bb.264:
 	xor	esi, esi
-.LBB0_440:
+.LBB0_274:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_442
-.LBB0_441:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
+	je	.LBB0_276
+.LBB0_275:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], ax
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_441
-.LBB0_442:
+	jne	.LBB0_275
+.LBB0_276:
 	cmp	r9, 3
 	jb	.LBB0_697
-.LBB0_443:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, word ptr [rdx + 2*rsi]
-	sub	ax, word ptr [rcx + 2*rsi]
+.LBB0_277:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, word ptr [rcx + 2*rsi]
+	add	ax, word ptr [rdx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 2]
-	sub	ax, word ptr [rcx + 2*rsi + 2]
+	movzx	eax, word ptr [rcx + 2*rsi + 2]
+	add	ax, word ptr [rdx + 2*rsi + 2]
 	mov	word ptr [r8 + 2*rsi + 2], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 4]
-	sub	ax, word ptr [rcx + 2*rsi + 4]
+	movzx	eax, word ptr [rcx + 2*rsi + 4]
+	add	ax, word ptr [rdx + 2*rsi + 4]
 	mov	word ptr [r8 + 2*rsi + 4], ax
-	movzx	eax, word ptr [rdx + 2*rsi + 6]
-	sub	ax, word ptr [rcx + 2*rsi + 6]
+	movzx	eax, word ptr [rcx + 2*rsi + 6]
+	add	ax, word ptr [rdx + 2*rsi + 6]
 	mov	word ptr [r8 + 2*rsi + 6], ax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_443
+	jne	.LBB0_277
 	jmp	.LBB0_697
-.LBB0_313:
+.LBB0_486:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.314:
+# %bb.487:
 	mov	r10d, r9d
 	cmp	r9d, 4
-	jae	.LBB0_316
-# %bb.315:
+	jae	.LBB0_489
+# %bb.488:
 	xor	esi, esi
-.LBB0_325:
+.LBB0_498:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_327
-.LBB0_326:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
+	je	.LBB0_500
+.LBB0_499:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_326
-.LBB0_327:
+	jne	.LBB0_499
+.LBB0_500:
 	cmp	r9, 3
 	jb	.LBB0_697
-.LBB0_328:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rcx + 8*rsi]
-	add	rax, qword ptr [rdx + 8*rsi]
+.LBB0_501:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rdx + 8*rsi]
+	sub	rax, qword ptr [rcx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 8]
-	add	rax, qword ptr [rdx + 8*rsi + 8]
+	mov	rax, qword ptr [rdx + 8*rsi + 8]
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
 	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 16]
-	add	rax, qword ptr [rdx + 8*rsi + 16]
+	mov	rax, qword ptr [rdx + 8*rsi + 16]
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
 	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rcx + 8*rsi + 24]
-	add	rax, qword ptr [rdx + 8*rsi + 24]
+	mov	rax, qword ptr [rdx + 8*rsi + 24]
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
 	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_328
+	jne	.LBB0_501
 	jmp	.LBB0_697
-.LBB0_329:
+.LBB0_502:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.330:
+# %bb.503:
 	mov	r10d, r9d
 	cmp	r9d, 8
-	jae	.LBB0_332
-# %bb.331:
+	jae	.LBB0_505
+# %bb.504:
 	xor	esi, esi
-.LBB0_341:
+.LBB0_514:
 	mov	rax, rsi
 	not	rax
 	add	rax, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_343
-.LBB0_342:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi]
-	movss	dword ptr [r8 + 4*rsi], xmm0
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB0_342
-.LBB0_343:
+	je	.LBB0_516
+.LBB0_515:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi]
+	movss	dword ptr [r8 + 4*rsi], xmm0
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB0_515
+.LBB0_516:
 	cmp	rax, 3
 	jb	.LBB0_697
-.LBB0_344:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi]
+.LBB0_517:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi]
 	movss	dword ptr [r8 + 4*rsi], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 4]
+	movss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 4]
 	movss	dword ptr [r8 + 4*rsi + 4], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 8]
+	movss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 8]
 	movss	dword ptr [r8 + 4*rsi + 8], xmm0
-	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	addss	xmm0, dword ptr [rdx + 4*rsi + 12]
+	movss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	subss	xmm0, dword ptr [rcx + 4*rsi + 12]
 	movss	dword ptr [r8 + 4*rsi + 12], xmm0
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_344
+	jne	.LBB0_517
 	jmp	.LBB0_697
 .LBB0_652:
 	test	r9d, r9d
@@ -1469,134 +1469,134 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	r10, rsi
 	jne	.LBB0_178
 	jmp	.LBB0_697
-.LBB0_486:
+.LBB0_320:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.487:
+# %bb.321:
 	mov	r10d, r9d
 	cmp	r9d, 4
-	jae	.LBB0_489
-# %bb.488:
+	jae	.LBB0_323
+# %bb.322:
 	xor	esi, esi
-.LBB0_498:
+.LBB0_332:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_500
-.LBB0_499:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
+	je	.LBB0_334
+.LBB0_333:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_499
-.LBB0_500:
+	jne	.LBB0_333
+.LBB0_334:
 	cmp	r9, 3
 	jb	.LBB0_697
-.LBB0_501:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, qword ptr [rdx + 8*rsi]
-	sub	rax, qword ptr [rcx + 8*rsi]
+.LBB0_335:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, qword ptr [rcx + 8*rsi]
+	add	rax, qword ptr [rdx + 8*rsi]
 	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 8]
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	rax, qword ptr [rcx + 8*rsi + 8]
+	add	rax, qword ptr [rdx + 8*rsi + 8]
 	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 16]
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	rax, qword ptr [rcx + 8*rsi + 16]
+	add	rax, qword ptr [rdx + 8*rsi + 16]
 	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, qword ptr [rdx + 8*rsi + 24]
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	rax, qword ptr [rcx + 8*rsi + 24]
+	add	rax, qword ptr [rdx + 8*rsi + 24]
 	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_501
+	jne	.LBB0_335
 	jmp	.LBB0_697
-.LBB0_502:
+.LBB0_336:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.503:
+# %bb.337:
 	mov	r10d, r9d
 	cmp	r9d, 8
-	jae	.LBB0_505
-# %bb.504:
+	jae	.LBB0_339
+# %bb.338:
 	xor	esi, esi
-.LBB0_514:
+.LBB0_348:
 	mov	rax, rsi
 	not	rax
 	add	rax, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_516
-.LBB0_515:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi]
+	je	.LBB0_350
+.LBB0_349:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi]
 	movss	dword ptr [r8 + 4*rsi], xmm0
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_515
-.LBB0_516:
+	jne	.LBB0_349
+.LBB0_350:
 	cmp	rax, 3
 	jb	.LBB0_697
-.LBB0_517:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm0, dword ptr [rdx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi]
+.LBB0_351:                              # =>This Inner Loop Header: Depth=1
+	movss	xmm0, dword ptr [rcx + 4*rsi]   # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi]
 	movss	dword ptr [r8 + 4*rsi], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 4]
+	movss	xmm0, dword ptr [rcx + 4*rsi + 4] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 4]
 	movss	dword ptr [r8 + 4*rsi + 4], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 8]
+	movss	xmm0, dword ptr [rcx + 4*rsi + 8] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 8]
 	movss	dword ptr [r8 + 4*rsi + 8], xmm0
-	movss	xmm0, dword ptr [rdx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
-	subss	xmm0, dword ptr [rcx + 4*rsi + 12]
+	movss	xmm0, dword ptr [rcx + 4*rsi + 12] # xmm0 = mem[0],zero,zero,zero
+	addss	xmm0, dword ptr [rdx + 4*rsi + 12]
 	movss	dword ptr [r8 + 4*rsi + 12], xmm0
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_517
+	jne	.LBB0_351
 	jmp	.LBB0_697
-.LBB0_210:
+.LBB0_383:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.211:
+# %bb.384:
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jae	.LBB0_213
-# %bb.212:
+	jae	.LBB0_386
+# %bb.385:
 	xor	esi, esi
-.LBB0_222:
+.LBB0_395:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_224
-.LBB0_223:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
+	je	.LBB0_397
+.LBB0_396:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
 	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_223
-.LBB0_224:
+	jne	.LBB0_396
+.LBB0_397:
 	cmp	r9, 3
 	jb	.LBB0_697
-.LBB0_225:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rcx + rsi]
-	add	al, byte ptr [rdx + rsi]
+.LBB0_398:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rdx + rsi]
+	sub	al, byte ptr [rcx + rsi]
 	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rcx + rsi + 1]
-	add	al, byte ptr [rdx + rsi + 1]
+	movzx	eax, byte ptr [rdx + rsi + 1]
+	sub	al, byte ptr [rcx + rsi + 1]
 	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rcx + rsi + 2]
-	add	al, byte ptr [rdx + rsi + 2]
+	movzx	eax, byte ptr [rdx + rsi + 2]
+	sub	al, byte ptr [rcx + rsi + 2]
 	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rcx + rsi + 3]
-	add	al, byte ptr [rdx + rsi + 3]
+	movzx	eax, byte ptr [rdx + rsi + 3]
+	sub	al, byte ptr [rcx + rsi + 3]
 	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_225
+	jne	.LBB0_398
 	jmp	.LBB0_697
 .LBB0_549:
 	test	r9d, r9d
@@ -1684,91 +1684,91 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	r10, rsi
 	jne	.LBB0_59
 	jmp	.LBB0_697
-.LBB0_383:
+.LBB0_217:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.384:
+# %bb.218:
 	mov	r10d, r9d
 	cmp	r9d, 32
-	jae	.LBB0_386
-# %bb.385:
+	jae	.LBB0_220
+# %bb.219:
 	xor	esi, esi
-.LBB0_395:
+.LBB0_229:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_397
-.LBB0_396:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
+	je	.LBB0_231
+.LBB0_230:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
 	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_396
-.LBB0_397:
+	jne	.LBB0_230
+.LBB0_231:
 	cmp	r9, 3
 	jb	.LBB0_697
-.LBB0_398:                              # =>This Inner Loop Header: Depth=1
-	movzx	eax, byte ptr [rdx + rsi]
-	sub	al, byte ptr [rcx + rsi]
+.LBB0_232:                              # =>This Inner Loop Header: Depth=1
+	movzx	eax, byte ptr [rcx + rsi]
+	add	al, byte ptr [rdx + rsi]
 	mov	byte ptr [r8 + rsi], al
-	movzx	eax, byte ptr [rdx + rsi + 1]
-	sub	al, byte ptr [rcx + rsi + 1]
+	movzx	eax, byte ptr [rcx + rsi + 1]
+	add	al, byte ptr [rdx + rsi + 1]
 	mov	byte ptr [r8 + rsi + 1], al
-	movzx	eax, byte ptr [rdx + rsi + 2]
-	sub	al, byte ptr [rcx + rsi + 2]
+	movzx	eax, byte ptr [rcx + rsi + 2]
+	add	al, byte ptr [rdx + rsi + 2]
 	mov	byte ptr [r8 + rsi + 2], al
-	movzx	eax, byte ptr [rdx + rsi + 3]
-	sub	al, byte ptr [rcx + rsi + 3]
+	movzx	eax, byte ptr [rcx + rsi + 3]
+	add	al, byte ptr [rdx + rsi + 3]
 	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_398
+	jne	.LBB0_232
 	jmp	.LBB0_697
-.LBB0_284:
+.LBB0_457:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.285:
+# %bb.458:
 	mov	r10d, r9d
 	cmp	r9d, 8
-	jae	.LBB0_287
-# %bb.286:
+	jae	.LBB0_460
+# %bb.459:
 	xor	esi, esi
-.LBB0_296:
+.LBB0_469:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_298
-.LBB0_297:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
+	je	.LBB0_471
+.LBB0_470:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_297
-.LBB0_298:
+	jne	.LBB0_470
+.LBB0_471:
 	cmp	r9, 3
 	jb	.LBB0_697
-.LBB0_299:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rcx + 4*rsi]
-	add	eax, dword ptr [rdx + 4*rsi]
+.LBB0_472:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rdx + 4*rsi]
+	sub	eax, dword ptr [rcx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 4]
-	add	eax, dword ptr [rdx + 4*rsi + 4]
+	mov	eax, dword ptr [rdx + 4*rsi + 4]
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
 	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 8]
-	add	eax, dword ptr [rdx + 4*rsi + 8]
+	mov	eax, dword ptr [rdx + 4*rsi + 8]
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
 	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rcx + 4*rsi + 12]
-	add	eax, dword ptr [rdx + 4*rsi + 12]
+	mov	eax, dword ptr [rdx + 4*rsi + 12]
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
 	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_299
+	jne	.LBB0_472
 	jmp	.LBB0_697
 .LBB0_623:
 	test	r9d, r9d
@@ -1856,50 +1856,50 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	r10, rsi
 	jne	.LBB0_133
 	jmp	.LBB0_697
-.LBB0_457:
+.LBB0_291:
 	test	r9d, r9d
 	jle	.LBB0_697
-# %bb.458:
+# %bb.292:
 	mov	r10d, r9d
 	cmp	r9d, 8
-	jae	.LBB0_460
-# %bb.459:
+	jae	.LBB0_294
+# %bb.293:
 	xor	esi, esi
-.LBB0_469:
+.LBB0_303:
 	mov	r9, rsi
 	not	r9
 	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
-	je	.LBB0_471
-.LBB0_470:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
+	je	.LBB0_305
+.LBB0_304:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
 	add	rsi, 1
 	add	rdi, -1
-	jne	.LBB0_470
-.LBB0_471:
+	jne	.LBB0_304
+.LBB0_305:
 	cmp	r9, 3
 	jb	.LBB0_697
-.LBB0_472:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, dword ptr [rdx + 4*rsi]
-	sub	eax, dword ptr [rcx + 4*rsi]
+.LBB0_306:                              # =>This Inner Loop Header: Depth=1
+	mov	eax, dword ptr [rcx + 4*rsi]
+	add	eax, dword ptr [rdx + 4*rsi]
 	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 4]
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	eax, dword ptr [rcx + 4*rsi + 4]
+	add	eax, dword ptr [rdx + 4*rsi + 4]
 	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 8]
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	eax, dword ptr [rcx + 4*rsi + 8]
+	add	eax, dword ptr [rdx + 4*rsi + 8]
 	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, dword ptr [rdx + 4*rsi + 12]
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	eax, dword ptr [rcx + 4*rsi + 12]
+	add	eax, dword ptr [rdx + 4*rsi + 12]
 	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
 	cmp	r10, rsi
-	jne	.LBB0_472
+	jne	.LBB0_306
 	jmp	.LBB0_697
-.LBB0_271:
+.LBB0_444:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
@@ -1913,11 +1913,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_280
-# %bb.272:
+	jne	.LBB0_453
+# %bb.445:
 	and	al, dil
-	jne	.LBB0_280
-# %bb.273:
+	jne	.LBB0_453
+# %bb.446:
 	mov	esi, r10d
 	and	esi, -8
 	lea	rax, [rsi - 8]
@@ -1925,33 +1925,33 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 3
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_274
-# %bb.275:
+	je	.LBB0_447
+# %bb.448:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_276:                              # =>This Inner Loop Header: Depth=1
+.LBB0_449:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
 	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
 	add	rdi, 16
 	add	rax, 2
-	jne	.LBB0_276
-	jmp	.LBB0_277
+	jne	.LBB0_449
+	jmp	.LBB0_450
 .LBB0_610:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
@@ -2058,7 +2058,7 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	add	rax, 2
 	jne	.LBB0_110
 	jmp	.LBB0_111
-.LBB0_444:
+.LBB0_278:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
@@ -2072,11 +2072,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_453
-# %bb.445:
+	jne	.LBB0_287
+# %bb.279:
 	and	al, dil
-	jne	.LBB0_453
-# %bb.446:
+	jne	.LBB0_287
+# %bb.280:
 	mov	esi, r10d
 	and	esi, -8
 	lea	rax, [rsi - 8]
@@ -2084,34 +2084,34 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 3
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_447
-# %bb.448:
+	je	.LBB0_281
+# %bb.282:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_449:                              # =>This Inner Loop Header: Depth=1
+.LBB0_283:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
 	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
 	add	rdi, 16
 	add	rax, 2
-	jne	.LBB0_449
-	jmp	.LBB0_450
-.LBB0_345:
+	jne	.LBB0_283
+	jmp	.LBB0_284
+.LBB0_518:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
@@ -2125,11 +2125,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_354
-# %bb.346:
+	jne	.LBB0_527
+# %bb.519:
 	and	al, dil
-	jne	.LBB0_354
-# %bb.347:
+	jne	.LBB0_527
+# %bb.520:
 	mov	esi, r10d
 	and	esi, -4
 	lea	rax, [rsi - 4]
@@ -2137,33 +2137,33 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 2
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_348
-# %bb.349:
+	je	.LBB0_521
+# %bb.522:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_350:                              # =>This Inner Loop Header: Depth=1
+.LBB0_523:                              # =>This Inner Loop Header: Depth=1
 	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
 	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
 	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rdi], xmm0
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
 	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
 	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
 	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm0
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm0
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm1
 	add	rdi, 8
 	add	rax, 2
-	jne	.LBB0_350
-	jmp	.LBB0_351
+	jne	.LBB0_523
+	jmp	.LBB0_524
 .LBB0_684:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
@@ -2270,7 +2270,7 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	add	rax, 2
 	jne	.LBB0_184
 	jmp	.LBB0_185
-.LBB0_518:
+.LBB0_352:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
@@ -2284,11 +2284,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_527
-# %bb.519:
+	jne	.LBB0_361
+# %bb.353:
 	and	al, dil
-	jne	.LBB0_527
-# %bb.520:
+	jne	.LBB0_361
+# %bb.354:
 	mov	esi, r10d
 	and	esi, -4
 	lea	rax, [rsi - 4]
@@ -2296,34 +2296,34 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 2
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_521
-# %bb.522:
+	je	.LBB0_355
+# %bb.356:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_523:                              # =>This Inner Loop Header: Depth=1
+.LBB0_357:                              # =>This Inner Loop Header: Depth=1
 	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
 	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
 	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rdi], xmm0
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
 	movupd	xmm0, xmmword ptr [rdx + 8*rdi + 32]
 	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 48]
 	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm0
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 48]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm0
 	add	rdi, 8
 	add	rax, 2
-	jne	.LBB0_523
-	jmp	.LBB0_524
-.LBB0_226:
+	jne	.LBB0_357
+	jmp	.LBB0_358
+.LBB0_399:
 	lea	rsi, [r8 + r10]
 	lea	rax, [rdx + r10]
 	cmp	rax, r8
@@ -2337,11 +2337,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_235
-# %bb.227:
+	jne	.LBB0_408
+# %bb.400:
 	and	al, dil
-	jne	.LBB0_235
-# %bb.228:
+	jne	.LBB0_408
+# %bb.401:
 	mov	esi, r10d
 	and	esi, -32
 	lea	rax, [rsi - 32]
@@ -2349,33 +2349,33 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 5
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_229
-# %bb.230:
+	je	.LBB0_402
+# %bb.403:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_231:                              # =>This Inner Loop Header: Depth=1
+.LBB0_404:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + rdi]
 	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
 	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
 	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
 	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
 	add	rdi, 64
 	add	rax, 2
-	jne	.LBB0_231
-	jmp	.LBB0_232
+	jne	.LBB0_404
+	jmp	.LBB0_405
 .LBB0_565:
 	lea	rsi, [r8 + r10]
 	lea	rax, [rdx + r10]
@@ -2482,7 +2482,7 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	add	rax, 2
 	jne	.LBB0_65
 	jmp	.LBB0_66
-.LBB0_399:
+.LBB0_233:
 	lea	rsi, [r8 + r10]
 	lea	rax, [rdx + r10]
 	cmp	rax, r8
@@ -2496,11 +2496,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_408
-# %bb.400:
+	jne	.LBB0_242
+# %bb.234:
 	and	al, dil
-	jne	.LBB0_408
-# %bb.401:
+	jne	.LBB0_242
+# %bb.235:
 	mov	esi, r10d
 	and	esi, -32
 	lea	rax, [rsi - 32]
@@ -2508,34 +2508,34 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 5
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_402
-# %bb.403:
+	je	.LBB0_236
+# %bb.237:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_404:                              # =>This Inner Loop Header: Depth=1
+.LBB0_238:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + rdi]
 	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
 	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
 	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
 	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
 	add	rdi, 64
 	add	rax, 2
-	jne	.LBB0_404
-	jmp	.LBB0_405
-.LBB0_300:
+	jne	.LBB0_238
+	jmp	.LBB0_239
+.LBB0_473:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
@@ -2549,11 +2549,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_309
-# %bb.301:
+	jne	.LBB0_482
+# %bb.474:
 	and	al, dil
-	jne	.LBB0_309
-# %bb.302:
+	jne	.LBB0_482
+# %bb.475:
 	mov	esi, r10d
 	and	esi, -4
 	lea	rax, [rsi - 4]
@@ -2561,33 +2561,33 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 2
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_303
-# %bb.304:
+	je	.LBB0_476
+# %bb.477:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_305:                              # =>This Inner Loop Header: Depth=1
+.LBB0_478:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
 	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
 	add	rdi, 8
 	add	rax, 2
-	jne	.LBB0_305
-	jmp	.LBB0_306
+	jne	.LBB0_478
+	jmp	.LBB0_479
 .LBB0_639:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
@@ -2694,7 +2694,7 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	add	rax, 2
 	jne	.LBB0_139
 	jmp	.LBB0_140
-.LBB0_473:
+.LBB0_307:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
@@ -2708,11 +2708,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_482
-# %bb.474:
+	jne	.LBB0_316
+# %bb.308:
 	and	al, dil
-	jne	.LBB0_482
-# %bb.475:
+	jne	.LBB0_316
+# %bb.309:
 	mov	esi, r10d
 	and	esi, -4
 	lea	rax, [rsi - 4]
@@ -2720,34 +2720,34 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 2
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_476
-# %bb.477:
+	je	.LBB0_310
+# %bb.311:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_478:                              # =>This Inner Loop Header: Depth=1
+.LBB0_312:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
 	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
 	add	rdi, 8
 	add	rax, 2
-	jne	.LBB0_478
-	jmp	.LBB0_479
-.LBB0_242:
+	jne	.LBB0_312
+	jmp	.LBB0_313
+.LBB0_415:
 	lea	rsi, [r8 + 2*r10]
 	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
@@ -2761,11 +2761,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_251
-# %bb.243:
+	jne	.LBB0_424
+# %bb.416:
 	and	al, dil
-	jne	.LBB0_251
-# %bb.244:
+	jne	.LBB0_424
+# %bb.417:
 	mov	esi, r10d
 	and	esi, -16
 	lea	rax, [rsi - 16]
@@ -2773,34 +2773,34 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 4
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_245
-# %bb.246:
+	je	.LBB0_418
+# %bb.419:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_247:                              # =>This Inner Loop Header: Depth=1
+.LBB0_420:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
 	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
 	add	rdi, 32
 	add	rax, 2
-	jne	.LBB0_247
-	jmp	.LBB0_248
-.LBB0_258:
+	jne	.LBB0_420
+	jmp	.LBB0_421
+.LBB0_431:
 	lea	rsi, [r8 + 2*r10]
 	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
@@ -2814,11 +2814,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_267
-# %bb.259:
+	jne	.LBB0_440
+# %bb.432:
 	and	al, dil
-	jne	.LBB0_267
-# %bb.260:
+	jne	.LBB0_440
+# %bb.433:
 	mov	esi, r10d
 	and	esi, -16
 	lea	rax, [rsi - 16]
@@ -2826,33 +2826,33 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 4
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_261
-# %bb.262:
+	je	.LBB0_434
+# %bb.435:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_263:                              # =>This Inner Loop Header: Depth=1
+.LBB0_436:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
 	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
 	add	rdi, 32
 	add	rax, 2
-	jne	.LBB0_263
-	jmp	.LBB0_264
+	jne	.LBB0_436
+	jmp	.LBB0_437
 .LBB0_581:
 	lea	rsi, [r8 + 2*r10]
 	lea	rax, [rdx + 2*r10]
@@ -3065,7 +3065,7 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	add	rax, 2
 	jne	.LBB0_97
 	jmp	.LBB0_98
-.LBB0_415:
+.LBB0_249:
 	lea	rsi, [r8 + 2*r10]
 	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
@@ -3079,11 +3079,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_424
-# %bb.416:
+	jne	.LBB0_258
+# %bb.250:
 	and	al, dil
-	jne	.LBB0_424
-# %bb.417:
+	jne	.LBB0_258
+# %bb.251:
 	mov	esi, r10d
 	and	esi, -16
 	lea	rax, [rsi - 16]
@@ -3091,34 +3091,34 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 4
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_418
-# %bb.419:
+	je	.LBB0_252
+# %bb.253:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_420:                              # =>This Inner Loop Header: Depth=1
+.LBB0_254:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
 	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
 	add	rdi, 32
 	add	rax, 2
-	jne	.LBB0_420
-	jmp	.LBB0_421
-.LBB0_431:
+	jne	.LBB0_254
+	jmp	.LBB0_255
+.LBB0_265:
 	lea	rsi, [r8 + 2*r10]
 	lea	rax, [rdx + 2*r10]
 	cmp	rax, r8
@@ -3132,11 +3132,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_440
-# %bb.432:
+	jne	.LBB0_274
+# %bb.266:
 	and	al, dil
-	jne	.LBB0_440
-# %bb.433:
+	jne	.LBB0_274
+# %bb.267:
 	mov	esi, r10d
 	and	esi, -16
 	lea	rax, [rsi - 16]
@@ -3144,34 +3144,34 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 4
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_434
-# %bb.435:
+	je	.LBB0_268
+# %bb.269:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_436:                              # =>This Inner Loop Header: Depth=1
+.LBB0_270:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
 	movdqu	xmm0, xmmword ptr [rdx + 2*rdi + 32]
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 48]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 32]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 48]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm0
 	add	rdi, 32
 	add	rax, 2
-	jne	.LBB0_436
-	jmp	.LBB0_437
-.LBB0_316:
+	jne	.LBB0_270
+	jmp	.LBB0_271
+.LBB0_489:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
@@ -3185,11 +3185,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_325
-# %bb.317:
+	jne	.LBB0_498
+# %bb.490:
 	and	al, dil
-	jne	.LBB0_325
-# %bb.318:
+	jne	.LBB0_498
+# %bb.491:
 	mov	esi, r10d
 	and	esi, -4
 	lea	rax, [rsi - 4]
@@ -3197,34 +3197,34 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 2
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_319
-# %bb.320:
+	je	.LBB0_492
+# %bb.493:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_321:                              # =>This Inner Loop Header: Depth=1
+.LBB0_494:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
 	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
 	add	rdi, 8
 	add	rax, 2
-	jne	.LBB0_321
-	jmp	.LBB0_322
-.LBB0_332:
+	jne	.LBB0_494
+	jmp	.LBB0_495
+.LBB0_505:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
@@ -3238,11 +3238,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_341
-# %bb.333:
+	jne	.LBB0_514
+# %bb.506:
 	and	al, dil
-	jne	.LBB0_341
-# %bb.334:
+	jne	.LBB0_514
+# %bb.507:
 	mov	esi, r10d
 	and	esi, -8
 	lea	rax, [rsi - 8]
@@ -3250,33 +3250,33 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 3
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_335
-# %bb.336:
+	je	.LBB0_508
+# %bb.509:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_337:                              # =>This Inner Loop Header: Depth=1
+.LBB0_510:                              # =>This Inner Loop Header: Depth=1
 	movups	xmm0, xmmword ptr [rdx + 4*rdi]
 	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
 	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rdi], xmm0
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
 	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
 	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
 	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm0
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm1
 	add	rdi, 16
 	add	rax, 2
-	jne	.LBB0_337
-	jmp	.LBB0_338
+	jne	.LBB0_510
+	jmp	.LBB0_511
 .LBB0_655:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
@@ -3489,7 +3489,7 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	add	rax, 2
 	jne	.LBB0_171
 	jmp	.LBB0_172
-.LBB0_489:
+.LBB0_323:
 	lea	rsi, [r8 + 8*r10]
 	lea	rax, [rdx + 8*r10]
 	cmp	rax, r8
@@ -3503,11 +3503,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_498
-# %bb.490:
+	jne	.LBB0_332
+# %bb.324:
 	and	al, dil
-	jne	.LBB0_498
-# %bb.491:
+	jne	.LBB0_332
+# %bb.325:
 	mov	esi, r10d
 	and	esi, -4
 	lea	rax, [rsi - 4]
@@ -3515,34 +3515,34 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 2
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_492
-# %bb.493:
+	je	.LBB0_326
+# %bb.327:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_494:                              # =>This Inner Loop Header: Depth=1
+.LBB0_328:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
 	movdqu	xmm0, xmmword ptr [rdx + 8*rdi + 32]
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 48]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 32]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 48]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm0
 	add	rdi, 8
 	add	rax, 2
-	jne	.LBB0_494
-	jmp	.LBB0_495
-.LBB0_505:
+	jne	.LBB0_328
+	jmp	.LBB0_329
+.LBB0_339:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
@@ -3556,11 +3556,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_514
-# %bb.506:
+	jne	.LBB0_348
+# %bb.340:
 	and	al, dil
-	jne	.LBB0_514
-# %bb.507:
+	jne	.LBB0_348
+# %bb.341:
 	mov	esi, r10d
 	and	esi, -8
 	lea	rax, [rsi - 8]
@@ -3568,34 +3568,34 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 3
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_508
-# %bb.509:
+	je	.LBB0_342
+# %bb.343:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_510:                              # =>This Inner Loop Header: Depth=1
+.LBB0_344:                              # =>This Inner Loop Header: Depth=1
 	movups	xmm0, xmmword ptr [rdx + 4*rdi]
 	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
 	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rdi], xmm0
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
 	movups	xmm0, xmmword ptr [rdx + 4*rdi + 32]
 	movups	xmm1, xmmword ptr [rdx + 4*rdi + 48]
 	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm0
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm0
 	add	rdi, 16
 	add	rax, 2
-	jne	.LBB0_510
-	jmp	.LBB0_511
-.LBB0_213:
+	jne	.LBB0_344
+	jmp	.LBB0_345
+.LBB0_386:
 	lea	rsi, [r8 + r10]
 	lea	rax, [rdx + r10]
 	cmp	rax, r8
@@ -3609,45 +3609,45 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_222
-# %bb.214:
+	jne	.LBB0_395
+# %bb.387:
 	and	al, dil
-	jne	.LBB0_222
-# %bb.215:
-	mov	esi, r10d
+	jne	.LBB0_395
+# %bb.388:
+	mov	esi, r10d
 	and	esi, -32
 	lea	rax, [rsi - 32]
 	mov	r9, rax
 	shr	r9, 5
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_216
-# %bb.217:
+	je	.LBB0_389
+# %bb.390:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_218:                              # =>This Inner Loop Header: Depth=1
+.LBB0_391:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + rdi]
 	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
 	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
 	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
 	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
 	add	rdi, 64
 	add	rax, 2
-	jne	.LBB0_218
-	jmp	.LBB0_219
+	jne	.LBB0_391
+	jmp	.LBB0_392
 .LBB0_552:
 	lea	rsi, [r8 + r10]
 	lea	rax, [rdx + r10]
@@ -3754,7 +3754,7 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	add	rax, 2
 	jne	.LBB0_52
 	jmp	.LBB0_53
-.LBB0_386:
+.LBB0_220:
 	lea	rsi, [r8 + r10]
 	lea	rax, [rdx + r10]
 	cmp	rax, r8
@@ -3768,11 +3768,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_395
-# %bb.387:
+	jne	.LBB0_229
+# %bb.221:
 	and	al, dil
-	jne	.LBB0_395
-# %bb.388:
+	jne	.LBB0_229
+# %bb.222:
 	mov	esi, r10d
 	and	esi, -32
 	lea	rax, [rsi - 32]
@@ -3780,34 +3780,34 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 5
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_389
-# %bb.390:
+	je	.LBB0_223
+# %bb.224:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_391:                              # =>This Inner Loop Header: Depth=1
+.LBB0_225:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + rdi]
 	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
 	movdqu	xmm0, xmmword ptr [rdx + rdi + 32]
 	movdqu	xmm1, xmmword ptr [rdx + rdi + 48]
 	movdqu	xmm2, xmmword ptr [rcx + rdi + 32]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 48]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm0
 	add	rdi, 64
 	add	rax, 2
-	jne	.LBB0_391
-	jmp	.LBB0_392
-.LBB0_287:
+	jne	.LBB0_225
+	jmp	.LBB0_226
+.LBB0_460:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
@@ -3821,11 +3821,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_296
-# %bb.288:
+	jne	.LBB0_469
+# %bb.461:
 	and	al, dil
-	jne	.LBB0_296
-# %bb.289:
+	jne	.LBB0_469
+# %bb.462:
 	mov	esi, r10d
 	and	esi, -8
 	lea	rax, [rsi - 8]
@@ -3833,33 +3833,33 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 3
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_290
-# %bb.291:
+	je	.LBB0_463
+# %bb.464:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_292:                              # =>This Inner Loop Header: Depth=1
+.LBB0_465:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
 	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
 	add	rdi, 16
 	add	rax, 2
-	jne	.LBB0_292
-	jmp	.LBB0_293
+	jne	.LBB0_465
+	jmp	.LBB0_466
 .LBB0_626:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
@@ -3966,7 +3966,7 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	add	rax, 2
 	jne	.LBB0_126
 	jmp	.LBB0_127
-.LBB0_460:
+.LBB0_294:
 	lea	rsi, [r8 + 4*r10]
 	lea	rax, [rdx + 4*r10]
 	cmp	rax, r8
@@ -3980,11 +3980,11 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	seta	dil
 	xor	esi, esi
 	test	r9b, r11b
-	jne	.LBB0_469
-# %bb.461:
+	jne	.LBB0_303
+# %bb.295:
 	and	al, dil
-	jne	.LBB0_469
-# %bb.462:
+	jne	.LBB0_303
+# %bb.296:
 	mov	esi, r10d
 	and	esi, -8
 	lea	rax, [rsi - 8]
@@ -3992,50 +3992,50 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	shr	r9, 3
 	add	r9, 1
 	test	rax, rax
-	je	.LBB0_463
-# %bb.464:
+	je	.LBB0_297
+# %bb.298:
 	mov	rax, r9
 	and	rax, -2
 	neg	rax
 	xor	edi, edi
-.LBB0_465:                              # =>This Inner Loop Header: Depth=1
+.LBB0_299:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
 	movdqu	xmm0, xmmword ptr [rdx + 4*rdi + 32]
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 48]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 32]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 48]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm0
 	add	rdi, 16
 	add	rax, 2
-	jne	.LBB0_465
-	jmp	.LBB0_466
-.LBB0_274:
+	jne	.LBB0_299
+	jmp	.LBB0_300
+.LBB0_447:
 	xor	edi, edi
-.LBB0_277:
+.LBB0_450:
 	test	r9b, 1
-	je	.LBB0_279
-# %bb.278:
+	je	.LBB0_452
+# %bb.451:
 	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_279:
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_452:
 	cmp	rsi, r10
-	jne	.LBB0_280
+	jne	.LBB0_453
 	jmp	.LBB0_697
 .LBB0_613:
 	xor	edi, edi
@@ -4073,41 +4073,41 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	rsi, r10
 	jne	.LBB0_114
 	jmp	.LBB0_697
-.LBB0_447:
+.LBB0_281:
 	xor	edi, edi
-.LBB0_450:
+.LBB0_284:
 	test	r9b, 1
-	je	.LBB0_452
-# %bb.451:
+	je	.LBB0_286
+# %bb.285:
 	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_452:
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_286:
 	cmp	rsi, r10
-	jne	.LBB0_453
+	jne	.LBB0_287
 	jmp	.LBB0_697
-.LBB0_348:
+.LBB0_521:
 	xor	edi, edi
-.LBB0_351:
+.LBB0_524:
 	test	r9b, 1
-	je	.LBB0_353
-# %bb.352:
+	je	.LBB0_526
+# %bb.525:
 	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
 	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
 	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	addpd	xmm2, xmm0
-	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm0, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_353:
+	subpd	xmm0, xmm2
+	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	subpd	xmm1, xmm2
+	movupd	xmmword ptr [r8 + 8*rdi], xmm0
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_526:
 	cmp	rsi, r10
-	jne	.LBB0_354
+	jne	.LBB0_527
 	jmp	.LBB0_697
 .LBB0_687:
 	xor	edi, edi
@@ -4145,41 +4145,41 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	rsi, r10
 	jne	.LBB0_188
 	jmp	.LBB0_697
-.LBB0_521:
+.LBB0_355:
 	xor	edi, edi
-.LBB0_524:
+.LBB0_358:
 	test	r9b, 1
-	je	.LBB0_526
-# %bb.525:
+	je	.LBB0_360
+# %bb.359:
 	movupd	xmm0, xmmword ptr [rdx + 8*rdi]
 	movupd	xmm1, xmmword ptr [rdx + 8*rdi + 16]
 	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
-	subpd	xmm0, xmm2
-	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	subpd	xmm1, xmm2
-	movupd	xmmword ptr [r8 + 8*rdi], xmm0
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_526:
+	addpd	xmm2, xmm0
+	movupd	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	addpd	xmm0, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB0_360:
 	cmp	rsi, r10
-	jne	.LBB0_527
+	jne	.LBB0_361
 	jmp	.LBB0_697
-.LBB0_229:
+.LBB0_402:
 	xor	edi, edi
-.LBB0_232:
+.LBB0_405:
 	test	r9b, 1
-	je	.LBB0_234
-# %bb.233:
+	je	.LBB0_407
+# %bb.406:
 	movdqu	xmm0, xmmword ptr [rdx + rdi]
 	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB0_234:
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+.LBB0_407:
 	cmp	rsi, r10
-	jne	.LBB0_235
+	jne	.LBB0_408
 	jmp	.LBB0_697
 .LBB0_568:
 	xor	edi, edi
@@ -4217,41 +4217,41 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	rsi, r10
 	jne	.LBB0_69
 	jmp	.LBB0_697
-.LBB0_402:
+.LBB0_236:
 	xor	edi, edi
-.LBB0_405:
+.LBB0_239:
 	test	r9b, 1
-	je	.LBB0_407
-# %bb.406:
+	je	.LBB0_241
+# %bb.240:
 	movdqu	xmm0, xmmword ptr [rdx + rdi]
 	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-.LBB0_407:
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB0_241:
 	cmp	rsi, r10
-	jne	.LBB0_408
+	jne	.LBB0_242
 	jmp	.LBB0_697
-.LBB0_303:
+.LBB0_476:
 	xor	edi, edi
-.LBB0_306:
+.LBB0_479:
 	test	r9b, 1
-	je	.LBB0_308
-# %bb.307:
+	je	.LBB0_481
+# %bb.480:
 	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_308:
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_481:
 	cmp	rsi, r10
-	jne	.LBB0_309
+	jne	.LBB0_482
 	jmp	.LBB0_697
 .LBB0_642:
 	xor	edi, edi
@@ -4289,59 +4289,59 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	rsi, r10
 	jne	.LBB0_143
 	jmp	.LBB0_697
-.LBB0_476:
+.LBB0_310:
 	xor	edi, edi
-.LBB0_479:
+.LBB0_313:
 	test	r9b, 1
-	je	.LBB0_481
-# %bb.480:
+	je	.LBB0_315
+# %bb.314:
 	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_481:
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB0_315:
 	cmp	rsi, r10
-	jne	.LBB0_482
+	jne	.LBB0_316
 	jmp	.LBB0_697
-.LBB0_245:
+.LBB0_418:
 	xor	edi, edi
-.LBB0_248:
+.LBB0_421:
 	test	r9b, 1
-	je	.LBB0_250
-# %bb.249:
+	je	.LBB0_423
+# %bb.422:
 	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_250:
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+.LBB0_423:
 	cmp	rsi, r10
-	jne	.LBB0_251
+	jne	.LBB0_424
 	jmp	.LBB0_697
-.LBB0_261:
+.LBB0_434:
 	xor	edi, edi
-.LBB0_264:
+.LBB0_437:
 	test	r9b, 1
-	je	.LBB0_266
-# %bb.265:
+	je	.LBB0_439
+# %bb.438:
 	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	paddw	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
-.LBB0_266:
+	psubw	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+.LBB0_439:
 	cmp	rsi, r10
-	jne	.LBB0_267
+	jne	.LBB0_440
 	jmp	.LBB0_697
 .LBB0_584:
 	xor	edi, edi
@@ -4415,77 +4415,77 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	rsi, r10
 	jne	.LBB0_101
 	jmp	.LBB0_697
-.LBB0_418:
+.LBB0_252:
 	xor	edi, edi
-.LBB0_421:
+.LBB0_255:
 	test	r9b, 1
-	je	.LBB0_423
-# %bb.422:
+	je	.LBB0_257
+# %bb.256:
 	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-.LBB0_423:
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB0_257:
 	cmp	rsi, r10
-	jne	.LBB0_424
+	jne	.LBB0_258
 	jmp	.LBB0_697
-.LBB0_434:
+.LBB0_268:
 	xor	edi, edi
-.LBB0_437:
+.LBB0_271:
 	test	r9b, 1
-	je	.LBB0_439
-# %bb.438:
+	je	.LBB0_273
+# %bb.272:
 	movdqu	xmm0, xmmword ptr [rdx + 2*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi]
-	psubw	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
-.LBB0_439:
+	paddw	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 2*rdi + 16]
+	paddw	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+.LBB0_273:
 	cmp	rsi, r10
-	jne	.LBB0_440
+	jne	.LBB0_274
 	jmp	.LBB0_697
-.LBB0_319:
+.LBB0_492:
 	xor	edi, edi
-.LBB0_322:
+.LBB0_495:
 	test	r9b, 1
-	je	.LBB0_324
-# %bb.323:
+	je	.LBB0_497
+# %bb.496:
 	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	paddq	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
-.LBB0_324:
+	psubq	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+.LBB0_497:
 	cmp	rsi, r10
-	jne	.LBB0_325
+	jne	.LBB0_498
 	jmp	.LBB0_697
-.LBB0_335:
+.LBB0_508:
 	xor	edi, edi
-.LBB0_338:
+.LBB0_511:
 	test	r9b, 1
-	je	.LBB0_340
-# %bb.339:
+	je	.LBB0_513
+# %bb.512:
 	movups	xmm0, xmmword ptr [rdx + 4*rdi]
 	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
 	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	addps	xmm2, xmm0
-	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm0, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_340:
+	subps	xmm0, xmm2
+	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	subps	xmm1, xmm2
+	movups	xmmword ptr [r8 + 4*rdi], xmm0
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_513:
 	cmp	rsi, r10
-	jne	.LBB0_341
+	jne	.LBB0_514
 	jmp	.LBB0_697
 .LBB0_658:
 	xor	edi, edi
@@ -4559,59 +4559,59 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	rsi, r10
 	jne	.LBB0_175
 	jmp	.LBB0_697
-.LBB0_492:
+.LBB0_326:
 	xor	edi, edi
-.LBB0_495:
+.LBB0_329:
 	test	r9b, 1
-	je	.LBB0_497
-# %bb.496:
+	je	.LBB0_331
+# %bb.330:
 	movdqu	xmm0, xmmword ptr [rdx + 8*rdi]
-	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
-	psubq	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
-.LBB0_497:
+	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 16]
+	movdqu	xmm2, xmmword ptr [rcx + 8*rdi]
+	paddq	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 8*rdi + 16]
+	paddq	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+.LBB0_331:
 	cmp	rsi, r10
-	jne	.LBB0_498
+	jne	.LBB0_332
 	jmp	.LBB0_697
-.LBB0_508:
+.LBB0_342:
 	xor	edi, edi
-.LBB0_511:
+.LBB0_345:
 	test	r9b, 1
-	je	.LBB0_513
-# %bb.512:
+	je	.LBB0_347
+# %bb.346:
 	movups	xmm0, xmmword ptr [rdx + 4*rdi]
 	movups	xmm1, xmmword ptr [rdx + 4*rdi + 16]
 	movups	xmm2, xmmword ptr [rcx + 4*rdi]
-	subps	xmm0, xmm2
-	movups	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	subps	xmm1, xmm2
-	movups	xmmword ptr [r8 + 4*rdi], xmm0
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_513:
+	addps	xmm2, xmm0
+	movups	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	addps	xmm0, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_347:
 	cmp	rsi, r10
-	jne	.LBB0_514
+	jne	.LBB0_348
 	jmp	.LBB0_697
-.LBB0_216:
+.LBB0_389:
 	xor	edi, edi
-.LBB0_219:
+.LBB0_392:
 	test	r9b, 1
-	je	.LBB0_221
-# %bb.220:
+	je	.LBB0_394
+# %bb.393:
 	movdqu	xmm0, xmmword ptr [rdx + rdi]
 	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	paddb	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + rdi], xmm2
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
-.LBB0_221:
+	psubb	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm0
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+.LBB0_394:
 	cmp	rsi, r10
-	jne	.LBB0_222
+	jne	.LBB0_395
 	jmp	.LBB0_697
 .LBB0_555:
 	xor	edi, edi
@@ -4649,41 +4649,41 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	rsi, r10
 	jne	.LBB0_56
 	jmp	.LBB0_697
-.LBB0_389:
+.LBB0_223:
 	xor	edi, edi
-.LBB0_392:
+.LBB0_226:
 	test	r9b, 1
-	je	.LBB0_394
-# %bb.393:
+	je	.LBB0_228
+# %bb.227:
 	movdqu	xmm0, xmmword ptr [rdx + rdi]
 	movdqu	xmm1, xmmword ptr [rdx + rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + rdi]
-	psubb	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm0
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
-.LBB0_394:
+	paddb	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + rdi + 16]
+	paddb	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + rdi], xmm2
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+.LBB0_228:
 	cmp	rsi, r10
-	jne	.LBB0_395
+	jne	.LBB0_229
 	jmp	.LBB0_697
-.LBB0_290:
+.LBB0_463:
 	xor	edi, edi
-.LBB0_293:
+.LBB0_466:
 	test	r9b, 1
-	je	.LBB0_295
-# %bb.294:
+	je	.LBB0_468
+# %bb.467:
 	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	paddd	xmm2, xmm0
-	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm0, xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
-.LBB0_295:
+	psubd	xmm0, xmm2
+	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+.LBB0_468:
 	cmp	rsi, r10
-	jne	.LBB0_296
+	jne	.LBB0_469
 	jmp	.LBB0_697
 .LBB0_629:
 	xor	edi, edi
@@ -4721,23 +4721,23 @@ arithmetic_sse4:                        # @arithmetic_sse4
 	cmp	rsi, r10
 	jne	.LBB0_130
 	jmp	.LBB0_697
-.LBB0_463:
+.LBB0_297:
 	xor	edi, edi
-.LBB0_466:
+.LBB0_300:
 	test	r9b, 1
-	je	.LBB0_468
-# %bb.467:
+	je	.LBB0_302
+# %bb.301:
 	movdqu	xmm0, xmmword ptr [rdx + 4*rdi]
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 16]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi]
-	psubd	xmm0, xmm2
-	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
-.LBB0_468:
+	paddd	xmm2, xmm0
+	movdqu	xmm0, xmmword ptr [rcx + 4*rdi + 16]
+	paddd	xmm0, xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+.LBB0_302:
 	cmp	rsi, r10
-	jne	.LBB0_469
+	jne	.LBB0_303
 .LBB0_697:
 	mov	rsp, rbp
 	pop	rbp
@@ -4803,7 +4803,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_423
 .LBB1_422:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
 	add	rsi, 1
 	add	rdi, -1
@@ -4813,16 +4813,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_424:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 4], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 8], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 12], ecx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -5010,7 +5010,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_447
 .LBB1_446:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
 	add	rsi, 1
 	add	rdi, -1
@@ -5020,16 +5020,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_448:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 4], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 8], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 12], ecx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -5074,7 +5074,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_455
 .LBB1_454:                              # =>This Inner Loop Header: Depth=1
 	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
+	subsd	xmm1, xmm0
 	movsd	qword ptr [r8 + 8*rcx], xmm1
 	add	rcx, 1
 	add	rdi, -1
@@ -5084,16 +5084,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_456:                              # =>This Inner Loop Header: Depth=1
 	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
+	subsd	xmm1, xmm0
 	movsd	qword ptr [r8 + 8*rcx], xmm1
 	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
+	subsd	xmm1, xmm0
 	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
 	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
+	subsd	xmm1, xmm0
 	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
 	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
+	subsd	xmm1, xmm0
 	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
 	add	rcx, 4
 	cmp	rax, rcx
@@ -5266,7 +5266,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_479
 .LBB1_478:                              # =>This Inner Loop Header: Depth=1
 	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
+	addsd	xmm1, xmm0
 	movsd	qword ptr [r8 + 8*rcx], xmm1
 	add	rcx, 1
 	add	rdi, -1
@@ -5276,16 +5276,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_480:                              # =>This Inner Loop Header: Depth=1
 	movsd	xmm1, qword ptr [rdx + 8*rcx]   # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
+	addsd	xmm1, xmm0
 	movsd	qword ptr [r8 + 8*rcx], xmm1
 	movsd	xmm1, qword ptr [rdx + 8*rcx + 8] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
+	addsd	xmm1, xmm0
 	movsd	qword ptr [r8 + 8*rcx + 8], xmm1
 	movsd	xmm1, qword ptr [rdx + 8*rcx + 16] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
+	addsd	xmm1, xmm0
 	movsd	qword ptr [r8 + 8*rcx + 16], xmm1
 	movsd	xmm1, qword ptr [rdx + 8*rcx + 24] # xmm1 = mem[0],zero
-	subsd	xmm1, xmm0
+	addsd	xmm1, xmm0
 	movsd	qword ptr [r8 + 8*rcx + 24], xmm1
 	add	rcx, 4
 	cmp	rax, rcx
@@ -5324,7 +5324,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_487
 .LBB1_486:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi], cl
 	add	rsi, 1
 	add	rdi, -1
@@ -5334,16 +5334,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_488:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi], cl
 	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi + 1], cl
 	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi + 2], cl
 	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi + 3], cl
 	add	rsi, 4
 	cmp	r10, rsi
@@ -5498,7 +5498,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_511
 .LBB1_510:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi], cl
 	add	rsi, 1
 	add	rdi, -1
@@ -5508,16 +5508,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_512:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi], cl
 	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi + 1], cl
 	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi + 2], cl
 	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi + 3], cl
 	add	rsi, 4
 	cmp	r10, rsi
@@ -5556,7 +5556,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_519
 .LBB1_518:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
 	add	rdi, -1
@@ -5566,16 +5566,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_520:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 8], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 16], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -5730,7 +5730,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_543
 .LBB1_542:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
 	add	rdi, -1
@@ -5740,16 +5740,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_544:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 8], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 16], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -5782,7 +5782,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_551
 .LBB1_550:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi], cx
 	add	rsi, 1
 	add	rdi, -1
@@ -5792,16 +5792,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_552:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi + 2], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi + 4], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -5834,7 +5834,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_559
 .LBB1_558:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi], cx
 	add	rsi, 1
 	add	rdi, -1
@@ -5844,16 +5844,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_560:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, word ptr [rdx + 2*rsi]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi + 2], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi + 4], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	add	cx, ax
+	sub	ecx, eax
 	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -6094,7 +6094,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_599
 .LBB1_598:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi], cx
 	add	rsi, 1
 	add	rdi, -1
@@ -6104,16 +6104,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_600:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 2], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 4], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -6146,7 +6146,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_607
 .LBB1_606:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi], cx
 	add	rsi, 1
 	add	rdi, -1
@@ -6156,16 +6156,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_608:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, word ptr [rdx + 2*rsi]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 2]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 2], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 4]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 4], cx
 	movzx	ecx, word ptr [rdx + 2*rsi + 6]
-	sub	ecx, eax
+	add	cx, ax
 	mov	word ptr [r8 + 2*rsi + 6], cx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -6198,7 +6198,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_615
 .LBB1_614:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
 	add	rdi, -1
@@ -6208,16 +6208,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_616:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 8], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 16], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	add	rcx, rax
+	sub	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -6250,7 +6250,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_623
 .LBB1_622:                              # =>This Inner Loop Header: Depth=1
 	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
+	subss	xmm1, xmm0
 	movss	dword ptr [r8 + 4*rcx], xmm1
 	add	rcx, 1
 	add	rdi, -1
@@ -6260,16 +6260,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_624:                              # =>This Inner Loop Header: Depth=1
 	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
+	subss	xmm1, xmm0
 	movss	dword ptr [r8 + 4*rcx], xmm1
 	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
+	subss	xmm1, xmm0
 	movss	dword ptr [r8 + 4*rcx + 4], xmm1
 	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
+	subss	xmm1, xmm0
 	movss	dword ptr [r8 + 4*rcx + 8], xmm1
 	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
+	subss	xmm1, xmm0
 	movss	dword ptr [r8 + 4*rcx + 12], xmm1
 	add	rcx, 4
 	cmp	rax, rcx
@@ -6510,7 +6510,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_663
 .LBB1_662:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	add	rsi, 1
 	add	rdi, -1
@@ -6520,16 +6520,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_664:                              # =>This Inner Loop Header: Depth=1
 	mov	rcx, qword ptr [rdx + 8*rsi]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 8]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 8], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 16]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 16], rcx
 	mov	rcx, qword ptr [rdx + 8*rsi + 24]
-	sub	rcx, rax
+	add	rcx, rax
 	mov	qword ptr [r8 + 8*rsi + 24], rcx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -6562,7 +6562,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_671
 .LBB1_670:                              # =>This Inner Loop Header: Depth=1
 	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
+	addss	xmm1, xmm0
 	movss	dword ptr [r8 + 4*rcx], xmm1
 	add	rcx, 1
 	add	rdi, -1
@@ -6572,16 +6572,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_672:                              # =>This Inner Loop Header: Depth=1
 	movss	xmm1, dword ptr [rdx + 4*rcx]   # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
+	addss	xmm1, xmm0
 	movss	dword ptr [r8 + 4*rcx], xmm1
 	movss	xmm1, dword ptr [rdx + 4*rcx + 4] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
+	addss	xmm1, xmm0
 	movss	dword ptr [r8 + 4*rcx + 4], xmm1
 	movss	xmm1, dword ptr [rdx + 4*rcx + 8] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
+	addss	xmm1, xmm0
 	movss	dword ptr [r8 + 4*rcx + 8], xmm1
 	movss	xmm1, dword ptr [rdx + 4*rcx + 12] # xmm1 = mem[0],zero,zero,zero
-	subss	xmm1, xmm0
+	addss	xmm1, xmm0
 	movss	dword ptr [r8 + 4*rcx + 12], xmm1
 	add	rcx, 4
 	cmp	rax, rcx
@@ -6614,7 +6614,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_679
 .LBB1_678:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi], cl
 	add	rsi, 1
 	add	rdi, -1
@@ -6624,16 +6624,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_680:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi], cl
 	movzx	ecx, byte ptr [rdx + rsi + 1]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi + 1], cl
 	movzx	ecx, byte ptr [rdx + rsi + 2]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi + 2], cl
 	movzx	ecx, byte ptr [rdx + rsi + 3]
-	add	cl, al
+	sub	cl, al
 	mov	byte ptr [r8 + rsi + 3], cl
 	add	rsi, 4
 	cmp	r10, rsi
@@ -6770,7 +6770,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_703
 .LBB1_702:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi], cl
 	add	rsi, 1
 	add	rdi, -1
@@ -6780,16 +6780,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_704:                              # =>This Inner Loop Header: Depth=1
 	movzx	ecx, byte ptr [rdx + rsi]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi], cl
 	movzx	ecx, byte ptr [rdx + rsi + 1]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi + 1], cl
 	movzx	ecx, byte ptr [rdx + rsi + 2]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi + 2], cl
 	movzx	ecx, byte ptr [rdx + rsi + 3]
-	sub	cl, al
+	add	cl, al
 	mov	byte ptr [r8 + rsi + 3], cl
 	add	rsi, 4
 	cmp	r10, rsi
@@ -6822,7 +6822,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_711
 .LBB1_710:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
 	add	rsi, 1
 	add	rdi, -1
@@ -6832,16 +6832,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_712:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 4], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 8], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	add	ecx, eax
+	sub	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 12], ecx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -6978,7 +6978,7 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	je	.LBB1_735
 .LBB1_734:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
 	add	rsi, 1
 	add	rdi, -1
@@ -6988,16 +6988,16 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 	jb	.LBB1_737
 .LBB1_736:                              # =>This Inner Loop Header: Depth=1
 	mov	ecx, dword ptr [rdx + 4*rsi]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 4]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 4], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 8]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 8], ecx
 	mov	ecx, dword ptr [rdx + 4*rsi + 12]
-	sub	ecx, eax
+	add	ecx, eax
 	mov	dword ptr [r8 + 4*rsi + 12], ecx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -7022,14 +7022,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_299:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
 	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
 	add	rdi, 16
@@ -7121,14 +7121,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_308:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
 	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
 	add	rdi, 16
@@ -7153,14 +7153,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_311:                              # =>This Inner Loop Header: Depth=1
 	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
 	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
 	movupd	xmmword ptr [r8 + 8*rdi], xmm2
 	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
 	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
 	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
 	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
 	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
 	add	rdi, 8
@@ -7249,14 +7249,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_320:                              # =>This Inner Loop Header: Depth=1
 	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
 	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
 	movupd	xmmword ptr [r8 + 8*rdi], xmm2
 	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
 	movupd	xmm2, xmmword ptr [rdx + 8*rdi + 32]
 	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 48]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
 	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
 	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
 	add	rdi, 8
@@ -7284,14 +7284,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_323:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rdx + rdi]
 	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + rdi], xmm1
 	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
 	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
 	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
 	add	rdi, 64
@@ -7389,14 +7389,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_332:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rdx + rdi]
 	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + rdi], xmm1
 	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
 	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
 	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
 	add	rdi, 64
@@ -7422,14 +7422,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_335:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
 	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
 	add	rdi, 8
@@ -7521,14 +7521,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_344:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
 	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
 	add	rdi, 8
@@ -7555,14 +7555,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_347:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
 	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
 	add	rdi, 32
@@ -7589,14 +7589,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_350:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
 	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
 	add	rdi, 32
@@ -7759,14 +7759,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_365:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
 	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
 	add	rdi, 32
@@ -7793,14 +7793,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_368:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 48]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
 	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
 	add	rdi, 32
@@ -7826,14 +7826,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_371:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
 	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
 	add	rdi, 8
@@ -7859,14 +7859,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_374:                              # =>This Inner Loop Header: Depth=1
 	movups	xmm2, xmmword ptr [rdx + 4*rdi]
 	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
 	movups	xmmword ptr [r8 + 4*rdi], xmm2
 	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
 	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
 	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
 	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
 	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
 	add	rdi, 16
@@ -8024,14 +8024,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_389:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 48]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
 	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
 	add	rdi, 8
@@ -8057,14 +8057,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_392:                              # =>This Inner Loop Header: Depth=1
 	movups	xmm2, xmmword ptr [rdx + 4*rdi]
 	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
 	movups	xmmword ptr [r8 + 4*rdi], xmm2
 	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
 	movups	xmm2, xmmword ptr [rdx + 4*rdi + 32]
 	movups	xmm3, xmmword ptr [rdx + 4*rdi + 48]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
 	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
 	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
 	add	rdi, 16
@@ -8092,14 +8092,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_395:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rdx + rdi]
 	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + rdi], xmm1
 	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
 	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
 	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
 	add	rdi, 64
@@ -8197,14 +8197,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_404:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rdx + rdi]
 	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + rdi], xmm1
 	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rdx + rdi + 32]
 	movdqu	xmm2, xmmword ptr [rdx + rdi + 48]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
 	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
 	add	rdi, 64
@@ -8230,14 +8230,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_407:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
 	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
 	add	rdi, 16
@@ -8329,14 +8329,14 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 .LBB1_416:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 48]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
 	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
 	add	rdi, 16
@@ -8351,8 +8351,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.419:
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
 .LBB1_420:
@@ -8399,8 +8399,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.443:
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
 .LBB1_444:
@@ -8415,8 +8415,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.451:
 	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
 	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
+	subpd	xmm2, xmm1
+	subpd	xmm3, xmm1
 	movupd	xmmword ptr [r8 + 8*rdi], xmm2
 	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
 .LBB1_452:
@@ -8463,8 +8463,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.475:
 	movupd	xmm2, xmmword ptr [rdx + 8*rdi]
 	movupd	xmm3, xmmword ptr [rdx + 8*rdi + 16]
-	subpd	xmm2, xmm1
-	subpd	xmm3, xmm1
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
 	movupd	xmmword ptr [r8 + 8*rdi], xmm2
 	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
 .LBB1_476:
@@ -8479,8 +8479,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.483:
 	movdqu	xmm1, xmmword ptr [rdx + rdi]
 	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + rdi], xmm1
 	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
 .LBB1_484:
@@ -8527,8 +8527,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.507:
 	movdqu	xmm1, xmmword ptr [rdx + rdi]
 	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + rdi], xmm1
 	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
 .LBB1_508:
@@ -8543,8 +8543,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.515:
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
 .LBB1_516:
@@ -8591,8 +8591,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.539:
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
 .LBB1_540:
@@ -8607,8 +8607,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.547:
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
 .LBB1_548:
@@ -8623,8 +8623,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.555:
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
+	psubw	xmm1, xmm0
+	psubw	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
 .LBB1_556:
@@ -8703,8 +8703,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.595:
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
 .LBB1_596:
@@ -8719,8 +8719,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.603:
 	movdqu	xmm1, xmmword ptr [rdx + 2*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 2*rdi + 16]
-	psubw	xmm1, xmm0
-	psubw	xmm2, xmm0
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
 .LBB1_604:
@@ -8735,8 +8735,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.611:
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
+	psubq	xmm1, xmm0
+	psubq	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
 .LBB1_612:
@@ -8751,8 +8751,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.619:
 	movups	xmm2, xmmword ptr [rdx + 4*rdi]
 	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
+	subps	xmm2, xmm1
+	subps	xmm3, xmm1
 	movups	xmmword ptr [r8 + 4*rdi], xmm2
 	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
 .LBB1_620:
@@ -8831,8 +8831,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.659:
 	movdqu	xmm1, xmmword ptr [rdx + 8*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 8*rdi + 16]
-	psubq	xmm1, xmm0
-	psubq	xmm2, xmm0
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
 .LBB1_660:
@@ -8847,8 +8847,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.667:
 	movups	xmm2, xmmword ptr [rdx + 4*rdi]
 	movups	xmm3, xmmword ptr [rdx + 4*rdi + 16]
-	subps	xmm2, xmm1
-	subps	xmm3, xmm1
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
 	movups	xmmword ptr [r8 + 4*rdi], xmm2
 	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
 .LBB1_668:
@@ -8863,8 +8863,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.675:
 	movdqu	xmm1, xmmword ptr [rdx + rdi]
 	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
+	psubb	xmm1, xmm0
+	psubb	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + rdi], xmm1
 	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
 .LBB1_676:
@@ -8911,8 +8911,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.699:
 	movdqu	xmm1, xmmword ptr [rdx + rdi]
 	movdqu	xmm2, xmmword ptr [rdx + rdi + 16]
-	psubb	xmm1, xmm0
-	psubb	xmm2, xmm0
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + rdi], xmm1
 	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
 .LBB1_700:
@@ -8927,8 +8927,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.707:
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
+	psubd	xmm1, xmm0
+	psubd	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
 .LBB1_708:
@@ -8975,8 +8975,8 @@ arithmetic_arr_scalar_sse4:             # @arithmetic_arr_scalar_sse4
 # %bb.731:
 	movdqu	xmm1, xmmword ptr [rdx + 4*rdi]
 	movdqu	xmm2, xmmword ptr [rdx + 4*rdi + 16]
-	psubd	xmm1, xmm0
-	psubd	xmm2, xmm0
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
 	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
 	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
 .LBB1_732:
@@ -9024,7 +9024,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.9:
-	mov	eax, dword ptr [rdx]
+	mov	r11d, dword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 8
 	jb	.LBB2_10
@@ -9039,35 +9039,35 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_10:
 	xor	esi, esi
 .LBB2_421:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_423
 .LBB2_422:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_422
 .LBB2_423:
-	cmp	r9, 3
+	cmp	rdx, 3
 	jb	.LBB2_737
 .LBB2_424:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_424
@@ -9231,7 +9231,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.35:
-	mov	r11d, dword ptr [rdx]
+	mov	eax, dword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 8
 	jb	.LBB2_36
@@ -9246,35 +9246,35 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_36:
 	xor	esi, esi
 .LBB2_445:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_447
 .LBB2_446:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_446
 .LBB2_447:
-	cmp	rdx, 3
+	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_448:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_448
@@ -9317,8 +9317,8 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	and	rdi, 3
 	je	.LBB2_455
 .LBB2_454:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx]
 	movsd	qword ptr [r8 + 8*rdx], xmm1
 	add	rdx, 1
 	add	rdi, -1
@@ -9327,17 +9327,17 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	cmp	rsi, 3
 	jb	.LBB2_737
 .LBB2_456:                              # =>This Inner Loop Header: Depth=1
-	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx]
 	movsd	qword ptr [r8 + 8*rdx], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 8] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 8]
 	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 16] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 16]
 	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	movsd	xmm1, qword ptr [rcx + 8*rdx + 24] # xmm1 = mem[0],zero
-	addsd	xmm1, xmm0
+	movapd	xmm1, xmm0
+	subsd	xmm1, qword ptr [rcx + 8*rdx + 24]
 	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
 	add	rdx, 4
 	cmp	rax, rdx
@@ -9509,8 +9509,8 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	and	rdi, 3
 	je	.LBB2_479
 .LBB2_478:                              # =>This Inner Loop Header: Depth=1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx]
+	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
 	movsd	qword ptr [r8 + 8*rdx], xmm1
 	add	rdx, 1
 	add	rdi, -1
@@ -9519,17 +9519,17 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	cmp	rsi, 3
 	jb	.LBB2_737
 .LBB2_480:                              # =>This Inner Loop Header: Depth=1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx]
+	movsd	xmm1, qword ptr [rcx + 8*rdx]   # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
 	movsd	qword ptr [r8 + 8*rdx], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 8]
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 8] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
 	movsd	qword ptr [r8 + 8*rdx + 8], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 16]
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 16] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
 	movsd	qword ptr [r8 + 8*rdx + 16], xmm1
-	movapd	xmm1, xmm0
-	subsd	xmm1, qword ptr [rcx + 8*rdx + 24]
+	movsd	xmm1, qword ptr [rcx + 8*rdx + 24] # xmm1 = mem[0],zero
+	addsd	xmm1, xmm0
 	movsd	qword ptr [r8 + 8*rdx + 24], xmm1
 	add	rdx, 4
 	cmp	rax, rdx
@@ -9545,7 +9545,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.68:
-	mov	al, byte ptr [rdx]
+	mov	r11b, byte ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 32
 	jb	.LBB2_69
@@ -9560,35 +9560,35 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_69:
 	xor	esi, esi
 .LBB2_485:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_487
 .LBB2_486:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_486
 .LBB2_487:
-	cmp	r9, 3
+	cmp	rdx, 3
 	jb	.LBB2_737
 .LBB2_488:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_488
@@ -9719,7 +9719,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.83:
-	mov	r11b, byte ptr [rdx]
+	mov	al, byte ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 32
 	jb	.LBB2_84
@@ -9734,35 +9734,35 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_84:
 	xor	esi, esi
 .LBB2_509:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_511
 .LBB2_510:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_510
 .LBB2_511:
-	cmp	rdx, 3
+	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_512:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_512
@@ -9777,7 +9777,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.88:
-	mov	rax, qword ptr [rdx]
+	mov	r11, qword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 4
 	jb	.LBB2_89
@@ -9792,35 +9792,35 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_89:
 	xor	esi, esi
 .LBB2_517:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_519
 .LBB2_518:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	add	rsi, 1
-	add	rdi, -1
-	jne	.LBB2_518
-.LBB2_519:
-	cmp	r9, 3
-	jb	.LBB2_737
-.LBB2_520:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	add	rsi, 1
+	add	rdi, -1
+	jne	.LBB2_518
+.LBB2_519:
+	cmp	rdx, 3
+	jb	.LBB2_737
+.LBB2_520:                              # =>This Inner Loop Header: Depth=1
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_520
@@ -9951,7 +9951,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.103:
-	mov	r11, qword ptr [rdx]
+	mov	rax, qword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 4
 	jb	.LBB2_104
@@ -9966,35 +9966,35 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_104:
 	xor	esi, esi
 .LBB2_541:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_543
 .LBB2_542:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_542
 .LBB2_543:
-	cmp	rdx, 3
+	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_544:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_544
@@ -10025,8 +10025,8 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	and	rdi, 3
 	je	.LBB2_551
 .LBB2_550:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], dx
 	add	rsi, 1
 	add	rdi, -1
@@ -10035,17 +10035,17 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_552:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
 	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
 	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
 	mov	word ptr [r8 + 2*rsi + 6], dx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -10077,8 +10077,8 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	and	rdi, 3
 	je	.LBB2_559
 .LBB2_558:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], dx
 	add	rsi, 1
 	add	rdi, -1
@@ -10087,17 +10087,17 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_560:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, word ptr [rcx + 2*rsi]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi]
 	mov	word ptr [r8 + 2*rsi], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 2]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 2]
 	mov	word ptr [r8 + 2*rsi + 2], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 4]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 4]
 	mov	word ptr [r8 + 2*rsi + 4], dx
-	movzx	edx, word ptr [rcx + 2*rsi + 6]
-	add	dx, ax
+	mov	edx, eax
+	sub	dx, word ptr [rcx + 2*rsi + 6]
 	mov	word ptr [r8 + 2*rsi + 6], dx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -10337,8 +10337,8 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	and	rdi, 3
 	je	.LBB2_599
 .LBB2_598:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi], dx
 	add	rsi, 1
 	add	rdi, -1
@@ -10347,17 +10347,17 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_600:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi + 6], dx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -10389,8 +10389,8 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	and	rdi, 3
 	je	.LBB2_607
 .LBB2_606:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi], dx
 	add	rsi, 1
 	add	rdi, -1
@@ -10399,17 +10399,17 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_608:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi]
+	movzx	edx, word ptr [rcx + 2*rsi]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 2]
+	movzx	edx, word ptr [rcx + 2*rsi + 2]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi + 2], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 4]
+	movzx	edx, word ptr [rcx + 2*rsi + 4]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi + 4], dx
-	mov	edx, eax
-	sub	dx, word ptr [rcx + 2*rsi + 6]
+	movzx	edx, word ptr [rcx + 2*rsi + 6]
+	add	dx, ax
 	mov	word ptr [r8 + 2*rsi + 6], dx
 	add	rsi, 4
 	cmp	r10, rsi
@@ -10419,7 +10419,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.130:
-	mov	rax, qword ptr [rdx]
+	mov	r11, qword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 4
 	jb	.LBB2_131
@@ -10434,35 +10434,35 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_131:
 	xor	esi, esi
 .LBB2_613:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_615
 .LBB2_614:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_614
 .LBB2_615:
-	cmp	r9, 3
+	cmp	rdx, 3
 	jb	.LBB2_737
 .LBB2_616:                              # =>This Inner Loop Header: Depth=1
-	mov	rdx, qword ptr [rcx + 8*rsi]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 8]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 8], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 16]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 16], rdx
-	mov	rdx, qword ptr [rcx + 8*rsi + 24]
-	add	rdx, rax
-	mov	qword ptr [r8 + 8*rsi + 24], rdx
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi]
+	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 8]
+	mov	qword ptr [r8 + 8*rsi + 8], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 16]
+	mov	qword ptr [r8 + 8*rsi + 16], rax
+	mov	rax, r11
+	sub	rax, qword ptr [rcx + 8*rsi + 24]
+	mov	qword ptr [r8 + 8*rsi + 24], rax
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_616
@@ -10493,8 +10493,8 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	and	rdi, 3
 	je	.LBB2_623
 .LBB2_622:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx]
 	movss	dword ptr [r8 + 4*rdx], xmm1
 	add	rdx, 1
 	add	rdi, -1
@@ -10503,17 +10503,17 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	cmp	rsi, 3
 	jb	.LBB2_737
 .LBB2_624:                              # =>This Inner Loop Header: Depth=1
-	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx]
 	movss	dword ptr [r8 + 4*rdx], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 4]
 	movss	dword ptr [r8 + 4*rdx + 4], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 8] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 8]
 	movss	dword ptr [r8 + 4*rdx + 8], xmm1
-	movss	xmm1, dword ptr [rcx + 4*rdx + 12] # xmm1 = mem[0],zero,zero,zero
-	addss	xmm1, xmm0
+	movaps	xmm1, xmm0
+	subss	xmm1, dword ptr [rcx + 4*rdx + 12]
 	movss	dword ptr [r8 + 4*rdx + 12], xmm1
 	add	rdx, 4
 	cmp	rax, rdx
@@ -10731,7 +10731,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.148:
-	mov	r11, qword ptr [rdx]
+	mov	rax, qword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 4
 	jb	.LBB2_149
@@ -10746,35 +10746,35 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_149:
 	xor	esi, esi
 .LBB2_661:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_663
 .LBB2_662:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_662
 .LBB2_663:
-	cmp	rdx, 3
+	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_664:                              # =>This Inner Loop Header: Depth=1
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi]
-	mov	qword ptr [r8 + 8*rsi], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 8]
-	mov	qword ptr [r8 + 8*rsi + 8], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 16]
-	mov	qword ptr [r8 + 8*rsi + 16], rax
-	mov	rax, r11
-	sub	rax, qword ptr [rcx + 8*rsi + 24]
-	mov	qword ptr [r8 + 8*rsi + 24], rax
+	mov	rdx, qword ptr [rcx + 8*rsi]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 8]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 8], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 16]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 16], rdx
+	mov	rdx, qword ptr [rcx + 8*rsi + 24]
+	add	rdx, rax
+	mov	qword ptr [r8 + 8*rsi + 24], rdx
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_664
@@ -10805,8 +10805,8 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	and	rdi, 3
 	je	.LBB2_671
 .LBB2_670:                              # =>This Inner Loop Header: Depth=1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx]
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
 	movss	dword ptr [r8 + 4*rdx], xmm1
 	add	rdx, 1
 	add	rdi, -1
@@ -10815,17 +10815,17 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	cmp	rsi, 3
 	jb	.LBB2_737
 .LBB2_672:                              # =>This Inner Loop Header: Depth=1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx]
+	movss	xmm1, dword ptr [rcx + 4*rdx]   # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
 	movss	dword ptr [r8 + 4*rdx], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 4]
+	movss	xmm1, dword ptr [rcx + 4*rdx + 4] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
 	movss	dword ptr [r8 + 4*rdx + 4], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 8]
+	movss	xmm1, dword ptr [rcx + 4*rdx + 8] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
 	movss	dword ptr [r8 + 4*rdx + 8], xmm1
-	movaps	xmm1, xmm0
-	subss	xmm1, dword ptr [rcx + 4*rdx + 12]
+	movss	xmm1, dword ptr [rcx + 4*rdx + 12] # xmm1 = mem[0],zero,zero,zero
+	addss	xmm1, xmm0
 	movss	dword ptr [r8 + 4*rdx + 12], xmm1
 	add	rdx, 4
 	cmp	rax, rdx
@@ -10835,7 +10835,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.154:
-	mov	al, byte ptr [rdx]
+	mov	r11b, byte ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 32
 	jb	.LBB2_155
@@ -10850,35 +10850,35 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_155:
 	xor	esi, esi
 .LBB2_677:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_679
 .LBB2_678:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_678
 .LBB2_679:
-	cmp	r9, 3
+	cmp	rdx, 3
 	jb	.LBB2_737
 .LBB2_680:                              # =>This Inner Loop Header: Depth=1
-	movzx	edx, byte ptr [rcx + rsi]
-	add	dl, al
-	mov	byte ptr [r8 + rsi], dl
-	movzx	edx, byte ptr [rcx + rsi + 1]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 1], dl
-	movzx	edx, byte ptr [rcx + rsi + 2]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 2], dl
-	movzx	edx, byte ptr [rcx + rsi + 3]
-	add	dl, al
-	mov	byte ptr [r8 + rsi + 3], dl
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi]
+	mov	byte ptr [r8 + rsi], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 1]
+	mov	byte ptr [r8 + rsi + 1], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 2]
+	mov	byte ptr [r8 + rsi + 2], al
+	mov	eax, r11d
+	sub	al, byte ptr [rcx + rsi + 3]
+	mov	byte ptr [r8 + rsi + 3], al
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_680
@@ -10991,7 +10991,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.163:
-	mov	r11b, byte ptr [rdx]
+	mov	al, byte ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 32
 	jb	.LBB2_164
@@ -11006,35 +11006,35 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_164:
 	xor	esi, esi
 .LBB2_701:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_703
 .LBB2_702:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_702
 .LBB2_703:
-	cmp	rdx, 3
+	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_704:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi]
-	mov	byte ptr [r8 + rsi], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 1]
-	mov	byte ptr [r8 + rsi + 1], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 2]
-	mov	byte ptr [r8 + rsi + 2], al
-	mov	eax, r11d
-	sub	al, byte ptr [rcx + rsi + 3]
-	mov	byte ptr [r8 + rsi + 3], al
+	movzx	edx, byte ptr [rcx + rsi]
+	add	dl, al
+	mov	byte ptr [r8 + rsi], dl
+	movzx	edx, byte ptr [rcx + rsi + 1]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 1], dl
+	movzx	edx, byte ptr [rcx + rsi + 2]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 2], dl
+	movzx	edx, byte ptr [rcx + rsi + 3]
+	add	dl, al
+	mov	byte ptr [r8 + rsi + 3], dl
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_704
@@ -11043,7 +11043,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.166:
-	mov	eax, dword ptr [rdx]
+	mov	r11d, dword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 8
 	jb	.LBB2_167
@@ -11058,35 +11058,35 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_167:
 	xor	esi, esi
 .LBB2_709:
-	mov	r9, rsi
-	not	r9
-	add	r9, r10
+	mov	rdx, rsi
+	not	rdx
+	add	rdx, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_711
 .LBB2_710:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_710
 .LBB2_711:
-	cmp	r9, 3
+	cmp	rdx, 3
 	jb	.LBB2_737
 .LBB2_712:                              # =>This Inner Loop Header: Depth=1
-	mov	edx, dword ptr [rcx + 4*rsi]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 4]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 4], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 8]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 8], edx
-	mov	edx, dword ptr [rcx + 4*rsi + 12]
-	add	edx, eax
-	mov	dword ptr [r8 + 4*rsi + 12], edx
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi]
+	mov	dword ptr [r8 + 4*rsi], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 4]
+	mov	dword ptr [r8 + 4*rsi + 4], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 8]
+	mov	dword ptr [r8 + 4*rsi + 8], eax
+	mov	eax, r11d
+	sub	eax, dword ptr [rcx + 4*rsi + 12]
+	mov	dword ptr [r8 + 4*rsi + 12], eax
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_712
@@ -11199,7 +11199,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 	test	r9d, r9d
 	jle	.LBB2_737
 # %bb.175:
-	mov	r11d, dword ptr [rdx]
+	mov	eax, dword ptr [rdx]
 	mov	r10d, r9d
 	cmp	r9d, 8
 	jb	.LBB2_176
@@ -11214,35 +11214,35 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_176:
 	xor	esi, esi
 .LBB2_733:
-	mov	rdx, rsi
-	not	rdx
-	add	rdx, r10
+	mov	r9, rsi
+	not	r9
+	add	r9, r10
 	mov	rdi, r10
 	and	rdi, 3
 	je	.LBB2_735
 .LBB2_734:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
 	add	rsi, 1
 	add	rdi, -1
 	jne	.LBB2_734
 .LBB2_735:
-	cmp	rdx, 3
+	cmp	r9, 3
 	jb	.LBB2_737
 .LBB2_736:                              # =>This Inner Loop Header: Depth=1
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi]
-	mov	dword ptr [r8 + 4*rsi], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 4]
-	mov	dword ptr [r8 + 4*rsi + 4], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 8]
-	mov	dword ptr [r8 + 4*rsi + 8], eax
-	mov	eax, r11d
-	sub	eax, dword ptr [rcx + 4*rsi + 12]
-	mov	dword ptr [r8 + 4*rsi + 12], eax
+	mov	edx, dword ptr [rcx + 4*rsi]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 4]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 4], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 8]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 8], edx
+	mov	edx, dword ptr [rcx + 4*rsi + 12]
+	add	edx, eax
+	mov	dword ptr [r8 + 4*rsi + 12], edx
 	add	rsi, 4
 	cmp	r10, rsi
 	jne	.LBB2_736
@@ -11250,7 +11250,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_297:
 	mov	esi, r10d
 	and	esi, -8
-	movd	xmm0, eax
+	movd	xmm0, r11d
 	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
 	lea	rdx, [rsi - 8]
 	mov	r9, rdx
@@ -11266,16 +11266,20 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_299:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
 	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
 	add	rdi, 16
 	add	rdx, 2
 	jne	.LBB2_299
@@ -11353,7 +11357,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_306:
 	mov	esi, r10d
 	and	esi, -8
-	movd	xmm0, r11d
+	movd	xmm0, eax
 	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
 	lea	rdx, [rsi - 8]
 	mov	r9, rdx
@@ -11369,20 +11373,16 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_308:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
 	add	rdi, 16
 	add	rdx, 2
 	jne	.LBB2_308
@@ -11405,16 +11405,20 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_311:                              # =>This Inner Loop Header: Depth=1
 	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
 	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	movapd	xmm2, xmm1
+	subpd	xmm2, xmm3
+	movupd	xmmword ptr [r8 + 8*rdi], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm2
 	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
 	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	movapd	xmm2, xmm1
+	subpd	xmm2, xmm3
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm2
 	add	rdi, 8
 	add	rsi, 2
 	jne	.LBB2_311
@@ -11505,20 +11509,16 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_320:                              # =>This Inner Loop Header: Depth=1
 	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
 	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	movapd	xmm2, xmm1
-	subpd	xmm2, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
 	movupd	xmm2, xmmword ptr [rcx + 8*rdi + 32]
 	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 48]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	movapd	xmm2, xmm1
-	subpd	xmm2, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi + 32], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 48], xmm3
 	add	rdi, 8
 	add	rsi, 2
 	jne	.LBB2_320
@@ -11526,7 +11526,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_321:
 	mov	esi, r10d
 	and	esi, -32
-	movzx	edx, al
+	movzx	edx, r11b
 	movd	xmm0, edx
 	pxor	xmm1, xmm1
 	pshufb	xmm0, xmm1
@@ -11544,16 +11544,20 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_323:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rcx + rdi]
 	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
 	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
 	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
 	add	rdi, 64
 	add	rdx, 2
 	jne	.LBB2_323
@@ -11635,7 +11639,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_330:
 	mov	esi, r10d
 	and	esi, -32
-	movzx	edx, r11b
+	movzx	edx, al
 	movd	xmm0, edx
 	pxor	xmm1, xmm1
 	pshufb	xmm0, xmm1
@@ -11653,20 +11657,16 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_332:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rcx + rdi]
 	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
 	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
 	add	rdi, 64
 	add	rdx, 2
 	jne	.LBB2_332
@@ -11674,7 +11674,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_333:
 	mov	esi, r10d
 	and	esi, -4
-	movq	xmm0, rax
+	movq	xmm0, r11
 	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
 	lea	rdx, [rsi - 4]
 	mov	r9, rdx
@@ -11690,16 +11690,20 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_335:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
 	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
 	add	rdi, 8
 	add	rdx, 2
 	jne	.LBB2_335
@@ -11777,7 +11781,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_342:
 	mov	esi, r10d
 	and	esi, -4
-	movq	xmm0, r11
+	movq	xmm0, rax
 	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
 	lea	rdx, [rsi - 4]
 	mov	r9, rdx
@@ -11793,20 +11797,16 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_344:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
 	add	rdi, 8
 	add	rdx, 2
 	jne	.LBB2_344
@@ -11831,16 +11831,20 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_347:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
 	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
 	add	rdi, 32
 	add	rdx, 2
 	jne	.LBB2_347
@@ -11865,16 +11869,20 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_350:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
 	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubw	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
 	add	rdi, 32
 	add	rdx, 2
 	jne	.LBB2_350
@@ -12043,20 +12051,16 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_365:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
 	add	rdi, 32
 	add	rdx, 2
 	jne	.LBB2_365
@@ -12081,20 +12085,16 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_368:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm1
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rcx + 2*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubw	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm1
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 48], xmm2
 	add	rdi, 32
 	add	rdx, 2
 	jne	.LBB2_368
@@ -12102,7 +12102,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_369:
 	mov	esi, r10d
 	and	esi, -4
-	movq	xmm0, rax
+	movq	xmm0, r11
 	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
 	lea	rdx, [rsi - 4]
 	mov	r9, rdx
@@ -12118,16 +12118,20 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_371:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
 	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubq	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
 	add	rdi, 8
 	add	rdx, 2
 	jne	.LBB2_371
@@ -12151,16 +12155,20 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_374:                              # =>This Inner Loop Header: Depth=1
 	movups	xmm2, xmmword ptr [rcx + 4*rdi]
 	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	movaps	xmm2, xmm1
+	subps	xmm2, xmm3
+	movups	xmmword ptr [r8 + 4*rdi], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm2
 	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
 	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	movaps	xmm2, xmm1
+	subps	xmm2, xmm3
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm2
 	add	rdi, 16
 	add	rsi, 2
 	jne	.LBB2_374
@@ -12308,7 +12316,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_387:
 	mov	esi, r10d
 	and	esi, -4
-	movq	xmm0, r11
+	movq	xmm0, rax
 	pshufd	xmm0, xmm0, 68                  # xmm0 = xmm0[0,1,0,1]
 	lea	rdx, [rsi - 4]
 	mov	r9, rdx
@@ -12324,20 +12332,16 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_389:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rcx + 8*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubq	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm1
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 48], xmm2
 	add	rdi, 8
 	add	rdx, 2
 	jne	.LBB2_389
@@ -12361,20 +12365,16 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_392:                              # =>This Inner Loop Header: Depth=1
 	movups	xmm2, xmmword ptr [rcx + 4*rdi]
 	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	movaps	xmm2, xmm1
-	subps	xmm2, xmm3
-	movups	xmmword ptr [r8 + 4*rdi], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
 	movups	xmm2, xmmword ptr [rcx + 4*rdi + 32]
 	movups	xmm3, xmmword ptr [rcx + 4*rdi + 48]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	movaps	xmm2, xmm1
-	subps	xmm2, xmm3
-	movups	xmmword ptr [r8 + 4*rdi + 32], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi + 32], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 48], xmm3
 	add	rdi, 16
 	add	rsi, 2
 	jne	.LBB2_392
@@ -12382,7 +12382,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_393:
 	mov	esi, r10d
 	and	esi, -32
-	movzx	edx, al
+	movzx	edx, r11b
 	movd	xmm0, edx
 	pxor	xmm1, xmm1
 	pshufb	xmm0, xmm1
@@ -12400,16 +12400,20 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_395:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rcx + rdi]
 	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
 	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
 	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubb	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
 	add	rdi, 64
 	add	rdx, 2
 	jne	.LBB2_395
@@ -12491,7 +12495,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_402:
 	mov	esi, r10d
 	and	esi, -32
-	movzx	edx, r11b
+	movzx	edx, al
 	movd	xmm0, edx
 	pxor	xmm1, xmm1
 	pshufb	xmm0, xmm1
@@ -12509,20 +12513,16 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_404:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rcx + rdi]
 	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm1
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rcx + rdi + 32]
 	movdqu	xmm2, xmmword ptr [rcx + rdi + 48]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubb	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 48], xmm1
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 48], xmm2
 	add	rdi, 64
 	add	rdx, 2
 	jne	.LBB2_404
@@ -12530,7 +12530,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_405:
 	mov	esi, r10d
 	and	esi, -8
-	movd	xmm0, eax
+	movd	xmm0, r11d
 	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
 	lea	rdx, [rsi - 8]
 	mov	r9, rdx
@@ -12546,16 +12546,20 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_407:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
 	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	movdqa	xmm1, xmm0
+	psubd	xmm1, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
 	add	rdi, 16
 	add	rdx, 2
 	jne	.LBB2_407
@@ -12633,7 +12637,7 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_414:
 	mov	esi, r10d
 	and	esi, -8
-	movd	xmm0, r11d
+	movd	xmm0, eax
 	pshufd	xmm0, xmm0, 0                   # xmm0 = xmm0[0,0,0,0]
 	lea	rdx, [rsi - 8]
 	mov	r9, rdx
@@ -12649,20 +12653,16 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 .LBB2_416:                              # =>This Inner Loop Header: Depth=1
 	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
 	movdqu	xmm1, xmmword ptr [rcx + 4*rdi + 32]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 48]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	movdqa	xmm1, xmm0
-	psubd	xmm1, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm1
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi + 32], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 48], xmm2
 	add	rdi, 16
 	add	rdx, 2
 	jne	.LBB2_416
@@ -12675,10 +12675,11 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.419:
 	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	psubd	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
 .LBB2_420:
 	cmp	rsi, r10
 	je	.LBB2_737
@@ -12724,11 +12725,10 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.443:
 	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	psubd	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
 .LBB2_444:
 	cmp	rsi, r10
 	je	.LBB2_737
@@ -12741,10 +12741,11 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.451:
 	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
 	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	addpd	xmm2, xmm1
-	addpd	xmm3, xmm1
-	movupd	xmmword ptr [r8 + 8*rdi], xmm2
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
+	movapd	xmm4, xmm1
+	subpd	xmm4, xmm2
+	subpd	xmm1, xmm3
+	movupd	xmmword ptr [r8 + 8*rdi], xmm4
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
 .LBB2_452:
 	cmp	rdx, rax
 	je	.LBB2_737
@@ -12790,11 +12791,10 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.475:
 	movupd	xmm2, xmmword ptr [rcx + 8*rdi]
 	movupd	xmm3, xmmword ptr [rcx + 8*rdi + 16]
-	movapd	xmm4, xmm1
-	subpd	xmm4, xmm2
-	subpd	xmm1, xmm3
-	movupd	xmmword ptr [r8 + 8*rdi], xmm4
-	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm1
+	addpd	xmm2, xmm1
+	addpd	xmm3, xmm1
+	movupd	xmmword ptr [r8 + 8*rdi], xmm2
+	movupd	xmmword ptr [r8 + 8*rdi + 16], xmm3
 .LBB2_476:
 	cmp	rdx, rax
 	je	.LBB2_737
@@ -12807,10 +12807,11 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.483:
 	movdqu	xmm1, xmmword ptr [rcx + rdi]
 	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	psubb	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
 .LBB2_484:
 	cmp	rsi, r10
 	je	.LBB2_737
@@ -12856,11 +12857,10 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.507:
 	movdqu	xmm1, xmmword ptr [rcx + rdi]
 	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	psubb	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
 .LBB2_508:
 	cmp	rsi, r10
 	je	.LBB2_737
@@ -12873,10 +12873,11 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.515:
 	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	psubq	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
 .LBB2_516:
 	cmp	rsi, r10
 	je	.LBB2_737
@@ -12922,11 +12923,10 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.539:
 	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	psubq	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
 .LBB2_540:
 	cmp	rsi, r10
 	je	.LBB2_737
@@ -12939,10 +12939,11 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.547:
 	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	psubw	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
 .LBB2_548:
 	cmp	rsi, r10
 	je	.LBB2_737
@@ -12955,10 +12956,11 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.555:
 	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	paddw	xmm1, xmm0
-	paddw	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
+	movdqa	xmm3, xmm0
+	psubw	xmm3, xmm1
+	psubw	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
 .LBB2_556:
 	cmp	rsi, r10
 	je	.LBB2_737
@@ -13037,11 +13039,10 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.595:
 	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	psubw	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
 .LBB2_596:
 	cmp	rsi, r10
 	je	.LBB2_737
@@ -13054,11 +13055,10 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.603:
 	movdqu	xmm1, xmmword ptr [rcx + 2*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 2*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubw	xmm3, xmm1
-	psubw	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 2*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm0
+	paddw	xmm1, xmm0
+	paddw	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 2*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 2*rdi + 16], xmm2
 .LBB2_604:
 	cmp	rsi, r10
 	je	.LBB2_737
@@ -13071,10 +13071,11 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.611:
 	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	paddq	xmm1, xmm0
-	paddq	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
+	movdqa	xmm3, xmm0
+	psubq	xmm3, xmm1
+	psubq	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
 .LBB2_612:
 	cmp	rsi, r10
 	je	.LBB2_737
@@ -13087,10 +13088,11 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.619:
 	movups	xmm2, xmmword ptr [rcx + 4*rdi]
 	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	addps	xmm2, xmm1
-	addps	xmm3, xmm1
-	movups	xmmword ptr [r8 + 4*rdi], xmm2
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
+	movaps	xmm4, xmm1
+	subps	xmm4, xmm2
+	subps	xmm1, xmm3
+	movups	xmmword ptr [r8 + 4*rdi], xmm4
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
 .LBB2_620:
 	cmp	rdx, rax
 	je	.LBB2_737
@@ -13169,11 +13171,10 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.659:
 	movdqu	xmm1, xmmword ptr [rcx + 8*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 8*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubq	xmm3, xmm1
-	psubq	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 8*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm0
+	paddq	xmm1, xmm0
+	paddq	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 8*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 8*rdi + 16], xmm2
 .LBB2_660:
 	cmp	rsi, r10
 	je	.LBB2_737
@@ -13186,11 +13187,10 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.667:
 	movups	xmm2, xmmword ptr [rcx + 4*rdi]
 	movups	xmm3, xmmword ptr [rcx + 4*rdi + 16]
-	movaps	xmm4, xmm1
-	subps	xmm4, xmm2
-	subps	xmm1, xmm3
-	movups	xmmword ptr [r8 + 4*rdi], xmm4
-	movups	xmmword ptr [r8 + 4*rdi + 16], xmm1
+	addps	xmm2, xmm1
+	addps	xmm3, xmm1
+	movups	xmmword ptr [r8 + 4*rdi], xmm2
+	movups	xmmword ptr [r8 + 4*rdi + 16], xmm3
 .LBB2_668:
 	cmp	rdx, rax
 	je	.LBB2_737
@@ -13203,10 +13203,11 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.675:
 	movdqu	xmm1, xmmword ptr [rcx + rdi]
 	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	paddb	xmm1, xmm0
-	paddb	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + rdi], xmm1
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
+	movdqa	xmm3, xmm0
+	psubb	xmm3, xmm1
+	psubb	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + rdi], xmm3
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
 .LBB2_676:
 	cmp	rsi, r10
 	je	.LBB2_737
@@ -13252,11 +13253,10 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.699:
 	movdqu	xmm1, xmmword ptr [rcx + rdi]
 	movdqu	xmm2, xmmword ptr [rcx + rdi + 16]
-	movdqa	xmm3, xmm0
-	psubb	xmm3, xmm1
-	psubb	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + rdi], xmm3
-	movdqu	xmmword ptr [r8 + rdi + 16], xmm0
+	paddb	xmm1, xmm0
+	paddb	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + rdi], xmm1
+	movdqu	xmmword ptr [r8 + rdi + 16], xmm2
 .LBB2_700:
 	cmp	rsi, r10
 	je	.LBB2_737
@@ -13269,10 +13269,11 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.707:
 	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	paddd	xmm1, xmm0
-	paddd	xmm2, xmm0
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
+	movdqa	xmm3, xmm0
+	psubd	xmm3, xmm1
+	psubd	xmm0, xmm2
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
 .LBB2_708:
 	cmp	rsi, r10
 	je	.LBB2_737
@@ -13318,11 +13319,10 @@ arithmetic_scalar_arr_sse4:             # @arithmetic_scalar_arr_sse4
 # %bb.731:
 	movdqu	xmm1, xmmword ptr [rcx + 4*rdi]
 	movdqu	xmm2, xmmword ptr [rcx + 4*rdi + 16]
-	movdqa	xmm3, xmm0
-	psubd	xmm3, xmm1
-	psubd	xmm0, xmm2
-	movdqu	xmmword ptr [r8 + 4*rdi], xmm3
-	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm0
+	paddd	xmm1, xmm0
+	paddd	xmm2, xmm0
+	movdqu	xmmword ptr [r8 + 4*rdi], xmm1
+	movdqu	xmmword ptr [r8 + 4*rdi + 16], xmm2
 .LBB2_732:
 	cmp	rsi, r10
 	jne	.LBB2_733
diff --git a/go/arrow/compute/internal/kernels/_lib/types.h b/go/arrow/compute/internal/kernels/_lib/types.h
index a08f2fe8347..5e0a3ae01c1 100644
--- a/go/arrow/compute/internal/kernels/_lib/types.h
+++ b/go/arrow/compute/internal/kernels/_lib/types.h
@@ -31,447 +31,338 @@ enum class arrtype : int {
     FLOAT64
 };
 
-// The following is copied from <type_traits> since we use -target 
-// x86_64-target-none makes life easier rather than creating is_integral,
-// etc. templates ourselves
 
-/// remove_cv
-  template<typename _Tp>
-    struct remove_cv
-    { using type = _Tp; };
+#define _LIBCPP_TEMPLATE_VIS
+#define _LIBCPP_CONSTEXPR constexpr
+#define _LIBCPP_INLINE_VISIBILITY
+#define _LIBCPP_STD_VER 17
+#define _LIBCPP_NODEBUG
+#define _LIBCPP_HAS_NO_CHAR8_T
+#define _NOEXCEPT noexcept
+#define _NOEXCEPT_(x) noexcept(x)
+
+// copied from libcxx/include/__type_traits/integral_constant.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+template <class _Tp, _Tp __v>
+struct _LIBCPP_TEMPLATE_VIS integral_constant
+{
+  static _LIBCPP_CONSTEXPR const _Tp      value = __v;
+  typedef _Tp               value_type;
+  typedef integral_constant type;
+  _LIBCPP_INLINE_VISIBILITY
+  _LIBCPP_CONSTEXPR operator value_type() const _NOEXCEPT {return value;}
+#if _LIBCPP_STD_VER > 11
+  _LIBCPP_INLINE_VISIBILITY
+  constexpr value_type operator ()() const _NOEXCEPT {return value;}
+#endif
+};
 
-  template<typename _Tp>
-    struct remove_cv<const _Tp>
-    { using type = _Tp; };
+template <class _Tp, _Tp __v>
+_LIBCPP_CONSTEXPR const _Tp integral_constant<_Tp, __v>::value;
 
-  template<typename _Tp>
-    struct remove_cv<volatile _Tp>
-    { using type = _Tp; };
+typedef integral_constant<bool, true>  true_type;
+typedef integral_constant<bool, false> false_type;
 
-  template<typename _Tp>
-    struct remove_cv<const volatile _Tp>
-    { using type = _Tp; };
+template <bool _Val>
+using _BoolConstant _LIBCPP_NODEBUG = integral_constant<bool, _Val>;
 
-// __remove_cv_t (std::remove_cv_t for C++11).
-  template<typename _Tp>
-    using __remove_cv_t = typename remove_cv<_Tp>::type;
+#if _LIBCPP_STD_VER > 14
+template <bool __b>
+using bool_constant = integral_constant<bool, __b>;
+#endif
+
+// copied from libcxx/include/__type_traits/remove_const.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
 
+#if __has_builtin(__remove_const)
+template <class _Tp>
+struct remove_const {
+  using type _LIBCPP_NODEBUG = __remove_const(_Tp);
+};
 
-  /// integral_constant
-  template<typename _Tp, _Tp __v>
-    struct integral_constant
-    {
-      static constexpr _Tp                  value = __v;
-      typedef _Tp                           value_type;
-      typedef integral_constant<_Tp, __v>   type;
-      constexpr operator value_type() const noexcept { return value; }
-#if __cplusplus > 201103L
+template <class _Tp>
+using __remove_const_t = __remove_const(_Tp);
+#else
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_const            {typedef _Tp type;};
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_const<const _Tp> {typedef _Tp type;};
 
-#define __cpp_lib_integral_constant_callable 201304
+template <class _Tp>
+using __remove_const_t = typename remove_const<_Tp>::type;
+#endif // __has_builtin(__remove_const)
 
-      constexpr value_type operator()() const noexcept { return value; }
+#if _LIBCPP_STD_VER > 11
+template <class _Tp> using remove_const_t = __remove_const_t<_Tp>;
 #endif
-    };
-
-  template<typename _Tp, _Tp __v>
-    constexpr _Tp integral_constant<_Tp, __v>::value;
 
+// copied from libcxx/include/__type_traits/remove_volatile.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
 
-  /// The type used as a compile-time boolean with true value.
-  using true_type =  integral_constant<bool, true>;
+#if __has_builtin(__remove_volatile)
+template <class _Tp>
+struct remove_volatile {
+  using type _LIBCPP_NODEBUG = __remove_volatile(_Tp);
+};
 
-  /// The type used as a compile-time boolean with false value.
-  using false_type = integral_constant<bool, false>;
+template <class _Tp>
+using __remove_volatile_t = __remove_volatile(_Tp);
+#else
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_volatile               {typedef _Tp type;};
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_volatile<volatile _Tp> {typedef _Tp type;};
 
-  /// @cond undocumented
-  /// bool_constant for C++11
-  template<bool __v>
-    using __bool_constant = integral_constant<bool, __v>;
-  /// @endcond
+template <class _Tp>
+using __remove_volatile_t = typename remove_volatile<_Tp>::type;
+#endif // __has_builtin(__remove_volatile)
 
-#if __cplusplus >= 201703L
-# define __cpp_lib_bool_constant 201505
-  /// Alias template for compile-time boolean constant types.
-  /// @since C++17
-  template<bool __v>
-    using bool_constant = integral_constant<bool, __v>;
+#if _LIBCPP_STD_VER > 11
+template <class _Tp> using remove_volatile_t = __remove_volatile_t<_Tp>;
 #endif
 
-  /// is_same
-  template<typename _Tp, typename _Up>
-    struct is_same
-#ifdef _GLIBCXX_HAVE_BUILTIN_IS_SAME
-    : public integral_constant<bool, __is_same(_Tp, _Up)>
+// copied from libcxx/include/__type_traits/remove_cv.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+#if __has_builtin(__remove_cv)
+template <class _Tp>
+struct remove_cv {
+  using type _LIBCPP_NODEBUG = __remove_cv(_Tp);
+};
+
+template <class _Tp>
+using __remove_cv_t = __remove_cv(_Tp);
 #else
-    : public false_type
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS remove_cv
+{typedef __remove_volatile_t<__remove_const_t<_Tp> > type;};
+
+template <class _Tp>
+using __remove_cv_t = __remove_volatile_t<__remove_const_t<_Tp> >;
+#endif // __has_builtin(__remove_cv)
+
+#if _LIBCPP_STD_VER > 11
+template <class _Tp> using remove_cv_t = __remove_cv_t<_Tp>;
 #endif
-    { };
 
-#ifndef _GLIBCXX_HAVE_BUILTIN_IS_SAME
-  template<typename _Tp>
-    struct is_same<_Tp, _Tp>
-    : public true_type
-    { };
+// copied from libcxx/include/__type_traits/is_floating_point.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+
+template <class _Tp> struct __libcpp_is_floating_point              : public false_type {};
+template <>          struct __libcpp_is_floating_point<float>       : public true_type {};
+template <>          struct __libcpp_is_floating_point<double>      : public true_type {};
+template <>          struct __libcpp_is_floating_point<long double> : public true_type {};
+
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_floating_point
+    : public __libcpp_is_floating_point<__remove_cv_t<_Tp> > {};
+
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_floating_point_v = is_floating_point<_Tp>::value;
 #endif
 
+// copied from libcxx/include/__type_traits/is_integral.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
 
-  template<bool, typename, typename>
-    struct conditional;
-
-  /// @cond undocumented
-  template <typename _Type>
-    struct __type_identity
-    { using type = _Type; };
-
-  template<typename _Tp>
-    using __type_identity_t = typename __type_identity<_Tp>::type;
-
-  template<typename...>
-    struct __or_;
-
-  template<>
-    struct __or_<>
-    : public false_type
-    { };
-
-  template<typename _B1>
-    struct __or_<_B1>
-    : public _B1
-    { };
-
-  template<typename _B1, typename _B2>
-    struct __or_<_B1, _B2>
-    : public conditional<_B1::value, _B1, _B2>::type
-    { };
-
-  template<typename _B1, typename _B2, typename _B3, typename... _Bn>
-    struct __or_<_B1, _B2, _B3, _Bn...>
-    : public conditional<_B1::value, _B1, __or_<_B2, _B3, _Bn...>>::type
-    { };
-
-  template<typename...>
-    struct __and_;
-
-  template<>
-    struct __and_<>
-    : public true_type
-    { };
-
-  template<typename _B1>
-    struct __and_<_B1>
-    : public _B1
-    { };
-
-  template<typename _B1, typename _B2>
-    struct __and_<_B1, _B2>
-    : public conditional<_B1::value, _B2, _B1>::type
-    { };
-
-  template<typename _B1, typename _B2, typename _B3, typename... _Bn>
-    struct __and_<_B1, _B2, _B3, _Bn...>
-    : public conditional<_B1::value, __and_<_B2, _B3, _Bn...>, _B1>::type
-    { };
-
-  template<typename _Pp>
-    struct __not_
-    : public __bool_constant<!bool(_Pp::value)>
-    { };
-  /// @endcond
-
-#if __cplusplus >= 201703L
-
-  /// @cond undocumented
-  template<typename... _Bn>
-    inline constexpr bool __or_v = __or_<_Bn...>::value;
-  template<typename... _Bn>
-    inline constexpr bool __and_v = __and_<_Bn...>::value;
-  /// @endcond
+template <class _Tp> struct __libcpp_is_integral                     { enum { value = 0 }; };
+template <>          struct __libcpp_is_integral<bool>               { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<char>               { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<signed char>        { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<unsigned char>      { enum { value = 1 }; };
+#ifndef _LIBCPP_HAS_NO_WIDE_CHARACTERS
+template <>          struct __libcpp_is_integral<wchar_t>            { enum { value = 1 }; };
+#endif
+#ifndef _LIBCPP_HAS_NO_CHAR8_T
+template <>          struct __libcpp_is_integral<char8_t>            { enum { value = 1 }; };
+#endif
+template <>          struct __libcpp_is_integral<char16_t>           { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<char32_t>           { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<short>              { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<unsigned short>     { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<int>                { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<unsigned int>       { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<long>               { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<unsigned long>      { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<long long>          { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<unsigned long long> { enum { value = 1 }; };
+#ifndef _LIBCPP_HAS_NO_INT128
+template <>          struct __libcpp_is_integral<__int128_t>         { enum { value = 1 }; };
+template <>          struct __libcpp_is_integral<__uint128_t>        { enum { value = 1 }; };
 #endif
 
-  /// remove_reference
-  template<typename _Tp>
-    struct remove_reference
-    { typedef _Tp   type; };
+#if __has_builtin(__is_integral)
 
-  template<typename _Tp>
-    struct remove_reference<_Tp&>
-    { typedef _Tp   type; };
+template <class _Tp>
+struct _LIBCPP_TEMPLATE_VIS is_integral : _BoolConstant<__is_integral(_Tp)> { };
 
-  template<typename _Tp>
-    struct remove_reference<_Tp&&>
-    { typedef _Tp   type; };
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_integral_v = __is_integral(_Tp);
+#endif
 
+#else
 
-// Primary template.
-  /// Define a member typedef `type` only if a boolean constant is true.
-  template<bool, typename _Tp = void>
-    struct enable_if
-    { };
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_integral
+    : public _BoolConstant<__libcpp_is_integral<__remove_cv_t<_Tp> >::value> {};
 
-  // Partial specialization for true.
-  template<typename _Tp>
-    struct enable_if<true, _Tp>
-    { typedef _Tp type; };
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_integral_v = is_integral<_Tp>::value;
+#endif
 
-  /// @cond undocumented
+#endif // __has_builtin(__is_integral)
 
-  // __enable_if_t (std::enable_if_t for C++11)
-  template<bool _Cond, typename _Tp = void>
-    using __enable_if_t = typename enable_if<_Cond, _Tp>::type;
+// copied from libcxx/include/__type_traits/is_arithmetic.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
 
-  // Helper for SFINAE constraints
-  template<typename... _Cond>
-    using _Require = __enable_if_t<__and_<_Cond...>::value>;
 
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_arithmetic
+    : public integral_constant<bool, is_integral<_Tp>::value      ||
+                                     is_floating_point<_Tp>::value> {};
 
-/// Alias template for enable_if
-  template<bool _Cond, typename _Tp = void>
-    using enable_if_t = typename enable_if<_Cond, _Tp>::type;
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_arithmetic_v = is_arithmetic<_Tp>::value;
+#endif
 
-  // __remove_cvref_t (std::remove_cvref_t for C++11).
-  template<typename _Tp>
-    using __remove_cvref_t
-     = typename remove_cv<typename remove_reference<_Tp>::type>::type;
-  /// @endcond
+// copied from libcxx/include/__type_traits/is_signed.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
 
-  // Primary template.
-  /// Define a member typedef @c type to one of two argument types.
-  template<bool _Cond, typename _Iftrue, typename _Iffalse>
-    struct conditional
-    { typedef _Iftrue type; };
+#if __has_builtin(__is_signed)
 
-  // Partial specialization for false.
-  template<typename _Iftrue, typename _Iffalse>
-    struct conditional<false, _Iftrue, _Iffalse>
-    { typedef _Iffalse type; };
+template<class _Tp>
+struct _LIBCPP_TEMPLATE_VIS is_signed : _BoolConstant<__is_signed(_Tp)> { };
 
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_signed_v = __is_signed(_Tp);
+#endif
 
-/// @cond undocumented
-  template<typename _Tp, typename... _Types>
-    using __is_one_of = __or_<is_same<_Tp, _Types>...>;
+#else // __has_builtin(__is_signed)
 
-  /// @cond undocumented
-  template<typename>
-    struct __is_integral_helper
-    : public false_type { };
+template <class _Tp, bool = is_integral<_Tp>::value>
+struct __libcpp_is_signed_impl : public _BoolConstant<(_Tp(-1) < _Tp(0))> {};
 
-  template<>
-    struct __is_integral_helper<bool>
-    : public true_type { };
+template <class _Tp>
+struct __libcpp_is_signed_impl<_Tp, false> : public true_type {};  // floating point
 
-  template<>
-    struct __is_integral_helper<char>
-    : public true_type { };
+template <class _Tp, bool = is_arithmetic<_Tp>::value>
+struct __libcpp_is_signed : public __libcpp_is_signed_impl<_Tp> {};
 
-  template<>
-    struct __is_integral_helper<signed char>
-    : public true_type { };
+template <class _Tp> struct __libcpp_is_signed<_Tp, false> : public false_type {};
 
-  template<>
-    struct __is_integral_helper<unsigned char>
-    : public true_type { };
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_signed : public __libcpp_is_signed<_Tp> {};
 
-  // We want is_integral<wchar_t> to be true (and make_signed/unsigned to work)
-  // even when libc doesn't provide working <wchar.h> and related functions,
-  // so check __WCHAR_TYPE__ instead of _GLIBCXX_USE_WCHAR_T.
-#ifdef __WCHAR_TYPE__
-  template<>
-    struct __is_integral_helper<wchar_t>
-    : public true_type { };
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_signed_v = is_signed<_Tp>::value;
 #endif
 
-#ifdef _GLIBCXX_USE_CHAR8_T
-  template<>
-    struct __is_integral_helper<char8_t>
-    : public true_type { };
-#endif
+#endif // __has_builtin(__is_signed)
 
-  template<>
-    struct __is_integral_helper<char16_t>
-    : public true_type { };
 
-  template<>
-    struct __is_integral_helper<char32_t>
-    : public true_type { };
+// copied from libcxx/include/__type_traits/is_unsigned.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
 
-  template<>
-    struct __is_integral_helper<short>
-    : public true_type { };
+// Before AppleClang 14, __is_unsigned returned true for enums with signed underlying type.
+#if __has_builtin(__is_unsigned) && !(defined(_LIBCPP_APPLE_CLANG_VER) && _LIBCPP_APPLE_CLANG_VER < 1400)
 
-  template<>
-    struct __is_integral_helper<unsigned short>
-    : public true_type { };
+template<class _Tp>
+struct _LIBCPP_TEMPLATE_VIS is_unsigned : _BoolConstant<__is_unsigned(_Tp)> { };
 
-  template<>
-    struct __is_integral_helper<int>
-    : public true_type { };
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_unsigned_v = __is_unsigned(_Tp);
+#endif
 
-  template<>
-    struct __is_integral_helper<unsigned int>
-    : public true_type { };
+#else // __has_builtin(__is_unsigned)
 
-  template<>
-    struct __is_integral_helper<long>
-    : public true_type { };
+template <class _Tp, bool = is_integral<_Tp>::value>
+struct __libcpp_is_unsigned_impl : public _BoolConstant<(_Tp(0) < _Tp(-1))> {};
 
-  template<>
-    struct __is_integral_helper<unsigned long>
-    : public true_type { };
+template <class _Tp>
+struct __libcpp_is_unsigned_impl<_Tp, false> : public false_type {};  // floating point
 
-  template<>
-    struct __is_integral_helper<long long>
-    : public true_type { };
+template <class _Tp, bool = is_arithmetic<_Tp>::value>
+struct __libcpp_is_unsigned : public __libcpp_is_unsigned_impl<_Tp> {};
 
-  template<>
-    struct __is_integral_helper<unsigned long long>
-    : public true_type { };
+template <class _Tp> struct __libcpp_is_unsigned<_Tp, false> : public false_type {};
 
-  // Conditionalizing on __STRICT_ANSI__ here will break any port that
-  // uses one of these types for size_t.
-#if defined(__GLIBCXX_TYPE_INT_N_0)
-  template<>
-    struct __is_integral_helper<__GLIBCXX_TYPE_INT_N_0>
-    : public true_type { };
+template <class _Tp> struct _LIBCPP_TEMPLATE_VIS is_unsigned : public __libcpp_is_unsigned<_Tp> {};
 
-  template<>
-    struct __is_integral_helper<unsigned __GLIBCXX_TYPE_INT_N_0>
-    : public true_type { };
-#endif
-#if defined(__GLIBCXX_TYPE_INT_N_1)
-  template<>
-    struct __is_integral_helper<__GLIBCXX_TYPE_INT_N_1>
-    : public true_type { };
-
-  template<>
-    struct __is_integral_helper<unsigned __GLIBCXX_TYPE_INT_N_1>
-    : public true_type { };
-#endif
-#if defined(__GLIBCXX_TYPE_INT_N_2)
-  template<>
-    struct __is_integral_helper<__GLIBCXX_TYPE_INT_N_2>
-    : public true_type { };
-
-  template<>
-    struct __is_integral_helper<unsigned __GLIBCXX_TYPE_INT_N_2>
-    : public true_type { };
-#endif
-#if defined(__GLIBCXX_TYPE_INT_N_3)
-  template<>
-    struct __is_integral_helper<__GLIBCXX_TYPE_INT_N_3>
-    : public true_type { };
-
-  template<>
-    struct __is_integral_helper<unsigned __GLIBCXX_TYPE_INT_N_3>
-    : public true_type { };
-#endif
-  /// @endcond
-
-  /// is_integral
-  template<typename _Tp>
-    struct is_integral
-    : public __is_integral_helper<__remove_cv_t<_Tp>>::type
-    { };
-
-  /// @cond undocumented
-  template<typename>
-    struct __is_floating_point_helper
-    : public false_type { };
-
-  template<>
-    struct __is_floating_point_helper<float>
-    : public true_type { };
-
-  template<>
-    struct __is_floating_point_helper<double>
-    : public true_type { };
-
-  template<>
-    struct __is_floating_point_helper<long double>
-    : public true_type { };
-
-  /// is_floating_point
-  template<typename _Tp>
-    struct is_floating_point
-    : public __is_floating_point_helper<__remove_cv_t<_Tp>>::type
-    { };
-
-
-  // Check if a type is one of the unsigned integer types.
-  template<typename _Tp>
-    using __is_unsigned_integer = __is_one_of<__remove_cv_t<_Tp>,
-	  unsigned char, unsigned short, unsigned int, unsigned long,
-	  unsigned long long
-#if defined(__GLIBCXX_TYPE_INT_N_0)
-	  , unsigned __GLIBCXX_TYPE_INT_N_0
-#endif
-#if defined(__GLIBCXX_TYPE_INT_N_1)
-	  , unsigned __GLIBCXX_TYPE_INT_N_1
-#endif
-#if defined(__GLIBCXX_TYPE_INT_N_2)
-	  , unsigned __GLIBCXX_TYPE_INT_N_2
-#endif
-#if defined(__GLIBCXX_TYPE_INT_N_3)
-	  , unsigned __GLIBCXX_TYPE_INT_N_3
+#if _LIBCPP_STD_VER > 14
+template <class _Tp>
+inline constexpr bool is_unsigned_v = is_unsigned<_Tp>::value;
 #endif
-	  >;
 
+#endif // __has_builtin(__is_unsigned)
 
-  // Check if a type is one of the signed integer types.
-  template<typename _Tp>
-    using __is_signed_integer = __is_one_of<__remove_cv_t<_Tp>,
-	  signed char, signed short, signed int, signed long,
-	  signed long long
-#if defined(__GLIBCXX_TYPE_INT_N_0)
-	  , signed __GLIBCXX_TYPE_INT_N_0
-#endif
-#if defined(__GLIBCXX_TYPE_INT_N_1)
-	  , signed __GLIBCXX_TYPE_INT_N_1
-#endif
-#if defined(__GLIBCXX_TYPE_INT_N_2)
-	  , signed __GLIBCXX_TYPE_INT_N_2
-#endif
-#if defined(__GLIBCXX_TYPE_INT_N_3)
-	  , signed __GLIBCXX_TYPE_INT_N_3
+// copied from libcxx/include/__type_traits/is_same.h
+//===----------------------------------------------------------------------===//
+//
+// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
+// See https://llvm.org/LICENSE.txt for license information.
+// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
+//
+//===----------------------------------------------------------------------===//
+
+template <class _Tp, class _Up>
+struct _LIBCPP_TEMPLATE_VIS is_same : _BoolConstant<__is_same(_Tp, _Up)> { };
+
+#if _LIBCPP_STD_VER > 14
+template <class _Tp, class _Up>
+inline constexpr bool is_same_v = __is_same(_Tp, _Up);
 #endif
-	  >;
-
-
-  /// is_arithmetic
-  template<typename _Tp>
-    struct is_arithmetic
-    : public __or_<is_integral<_Tp>, is_floating_point<_Tp>>::type
-    { };
-
-
-  /// @cond undocumented
-  template<typename _Tp,
-	   bool = is_arithmetic<_Tp>::value>
-    struct __is_signed_helper
-    : public false_type { };
-
-  template<typename _Tp>
-    struct __is_signed_helper<_Tp, true>
-    : public integral_constant<bool, _Tp(-1) < _Tp(0)>
-    { };
-  /// @endcond
-
-  /// is_signed
-  template<typename _Tp>
-    struct is_signed
-    : public __is_signed_helper<_Tp>::type
-    { };
-
-  /// is_unsigned
-  template<typename _Tp>
-    struct is_unsigned
-    : public __and_<is_arithmetic<_Tp>, __not_<is_signed<_Tp>>>
-    { };
-
-template <typename _Tp>
-  inline constexpr bool is_integral_v = is_integral<_Tp>::value;
-template <typename _Tp>
-  inline constexpr bool is_floating_point_v = is_floating_point<_Tp>::value;
-template <typename _Tp>
-  inline constexpr bool is_signed_v = is_signed<_Tp>::value;
-template <typename _Tp>
-  inline constexpr bool is_unsigned_v = is_unsigned<_Tp>::value;
\ No newline at end of file
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic.go b/go/arrow/compute/internal/kernels/base_arithmetic.go
index a6dc3d39c3f..67994bd65e8 100644
--- a/go/arrow/compute/internal/kernels/base_arithmetic.go
+++ b/go/arrow/compute/internal/kernels/base_arithmetic.go
@@ -18,7 +18,6 @@ package kernels
 
 import (
 	"fmt"
-	"math/bits"
 
 	"github.com/apache/arrow/go/v10/arrow"
 	"github.com/apache/arrow/go/v10/arrow/compute/internal/exec"
@@ -30,112 +29,119 @@ type ArithmeticOp int8
 
 const (
 	OpAdd ArithmeticOp = iota
-	OpAddChecked
 	OpSub
+
+	OpAddChecked
 	OpSubChecked
 )
 
-func getGoArithmeticBinaryOpsFloating[T constraints.Float](op ArithmeticOp) binaryOps[T, T, T] {
-	Op := map[ArithmeticOp]func(a, b T, e *error) T{
-		OpAdd:        func(a, b T, _ *error) T { return a + b },
-		OpAddChecked: func(a, b T, _ *error) T { return a + b },
-		OpSub:        func(a, b T, _ *error) T { return a - b },
-		OpSubChecked: func(a, b T, _ *error) T { return a - b },
-	}[op]
-
+func getGoArithmeticBinary[T exec.NumericTypes](op func(a, b T, e *error) T) binaryOps[T, T, T] {
 	return binaryOps[T, T, T]{
 		arrArr: func(_ *exec.KernelCtx, left, right, out []T) error {
 			var err error
 			for i := range out {
-				out[i] = Op(left[i], right[i], &err)
+				out[i] = op(left[i], right[i], &err)
 			}
 			return err
 		},
 		arrScalar: func(ctx *exec.KernelCtx, left []T, right T, out []T) error {
 			var err error
 			for i := range out {
-				out[i] = Op(left[i], right, &err)
+				out[i] = op(left[i], right, &err)
 			}
 			return err
 		},
 		scalarArr: func(ctx *exec.KernelCtx, left T, right, out []T) error {
 			var err error
 			for i := range out {
-				out[i] = Op(left, right[i], &err)
+				out[i] = op(left, right[i], &err)
 			}
 			return err
 		},
 	}
 }
 
-func getGoArithmeticBinaryOpsIntegral[T exec.UintTypes | exec.IntTypes](op ArithmeticOp) binaryOps[T, T, T] {
-	Op := map[ArithmeticOp]func(a, b T, e *error) T{
-		OpAdd: func(a, b T, _ *error) T { return a + b },
-		OpAddChecked: func(a, b T, e *error) T {
-			out, carry := bits.Add64(uint64(a), uint64(b), 0)
+var errOverflow = fmt.Errorf("%w: overflow", arrow.ErrInvalid)
+
+func getGoArithmeticBinaryOpIntegral[T exec.UintTypes | exec.IntTypes](op ArithmeticOp) exec.ArrayKernelExec {
+	switch op {
+	case OpAdd:
+		return ScalarBinary(getGoArithmeticBinary(func(a, b T, _ *error) T { return a + b }))
+	case OpSub:
+		return ScalarBinary(getGoArithmeticBinary(func(a, b T, _ *error) T { return a - b }))
+	case OpAddChecked:
+		shiftBy := (SizeOf[T]() * 8) - 1
+		// ie: uint32 does a >> 31 at the end, int32 does >> 30
+		if ^T(0) < 0 {
+			shiftBy--
+		}
+		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b T, e *error) (out T) {
+			out = a + b
+			// see math/bits/bits.go Add64 for explanation of logic
+			carry := ((a & b) | ((a | b) &^ out)) >> shiftBy
 			if carry > 0 {
-				*e = fmt.Errorf("%w: overflow", arrow.ErrInvalid)
+				*e = errOverflow
 			}
-			return T(out)
-		},
-		OpSub: func(a, b T, _ *error) T { return a - b },
-		OpSubChecked: func(a, b T, e *error) T {
-			out, carry := bits.Sub64(uint64(a), uint64(b), 0)
+			return
+		})
+	case OpSubChecked:
+		shiftBy := (SizeOf[T]() * 8) - 1
+		// ie: uint32 does a >> 31 at the end, int32 does >> 30
+		if ^T(0) < 0 {
+			shiftBy--
+		}
+		return ScalarBinaryNotNull(func(_ *exec.KernelCtx, a, b T, e *error) (out T) {
+			out = a - b
+			// see math/bits/bits.go Sub64 for explanation of bit logic
+			carry := ((^a & b) | (^(a ^ b) & out)) >> shiftBy
 			if carry > 0 {
-				*e = fmt.Errorf("%w: overflow", arrow.ErrInvalid)
+				*e = errOverflow
 			}
-			return T(out)
-		},
-	}[op]
+			return
+		})
+	}
+	debug.Assert(false, "invalid arithmetic op")
+	return nil
+}
 
-	return binaryOps[T, T, T]{
-		arrArr: func(_ *exec.KernelCtx, left, right, out []T) error {
-			var err error
-			for i := range out {
-				out[i] = Op(left[i], right[i], &err)
-			}
-			return err
-		},
-		arrScalar: func(ctx *exec.KernelCtx, left []T, right T, out []T) error {
-			var err error
-			for i := range out {
-				out[i] = Op(left[i], right, &err)
-			}
-			return err
-		},
-		scalarArr: func(ctx *exec.KernelCtx, left T, right, out []T) error {
-			var err error
-			for i := range out {
-				out[i] = Op(left, right[i], &err)
-			}
-			return err
-		},
+func getGoArithmeticBinaryOpFloating[T constraints.Float](op ArithmeticOp) exec.ArrayKernelExec {
+	if op >= OpAddChecked {
+		op -= OpAddChecked // floating checked is the same as floating unchecked
+	}
+	switch op {
+	case OpAdd:
+		return ScalarBinary(getGoArithmeticBinary(func(a, b T, _ *error) T { return a + b }))
+	case OpSub:
+		return ScalarBinary(getGoArithmeticBinary(func(a, b T, _ *error) T { return a - b }))
 	}
+	debug.Assert(false, "invalid arithmetic op")
+	return nil
 }
 
 func ArithmeticExec(ty arrow.Type, op ArithmeticOp) exec.ArrayKernelExec {
 	switch ty {
 	case arrow.INT8:
-		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsIntegral[int8](op))
+		return getArithmeticBinaryOpIntegral[int8](op)
 	case arrow.UINT8:
-		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsIntegral[uint8](op))
+		return getArithmeticBinaryOpIntegral[uint8](op)
 	case arrow.INT16:
-		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsIntegral[int16](op))
+		return getArithmeticBinaryOpIntegral[int16](op)
 	case arrow.UINT16:
-		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsIntegral[uint16](op))
+		return getArithmeticBinaryOpIntegral[uint16](op)
 	case arrow.INT32:
-		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsIntegral[int32](op))
+		return getArithmeticBinaryOpIntegral[int32](op)
 	case arrow.UINT32:
-		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsIntegral[uint32](op))
+		return getArithmeticBinaryOpIntegral[uint32](op)
 	case arrow.INT64:
-		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsIntegral[int64](op))
+		return getArithmeticBinaryOpIntegral[int64](op)
 	case arrow.UINT64:
-		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsIntegral[uint64](op))
+		return getArithmeticBinaryOpIntegral[uint64](op)
 	case arrow.FLOAT32:
-		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsFloating[float32](op))
+		return getArithmeticBinaryOpFloating[float32](op)
 	case arrow.FLOAT64:
-		return ScalarBinaryEqualTypes(getArithmeticBinaryOpsFloating[float64](op))
+		return getArithmeticBinaryOpFloating[float64](op)
 	}
 	debug.Assert(false, "invalid arithmetic type")
 	return nil
+
 }
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_amd64.go b/go/arrow/compute/internal/kernels/base_arithmetic_amd64.go
index 4d33d8991c3..9ce0d60c9a9 100644
--- a/go/arrow/compute/internal/kernels/base_arithmetic_amd64.go
+++ b/go/arrow/compute/internal/kernels/base_arithmetic_amd64.go
@@ -62,22 +62,27 @@ func getSSE4ArithmeticBinaryNumeric[T exec.NumericTypes](op ArithmeticOp) binary
 	}
 }
 
-func getArithmeticBinaryOpsFloating[T constraints.Float](op ArithmeticOp) binaryOps[T, T, T] {
+func getArithmeticBinaryOpIntegral[T exec.UintTypes | exec.IntTypes](op ArithmeticOp) exec.ArrayKernelExec {
+	if op >= OpAddChecked {
+		// integral checked funcs need to use ScalarBinaryNotNull
+		return getGoArithmeticBinaryOpIntegral[T](op)
+	}
+
 	if cpu.X86.HasAVX2 {
-		return getAvx2ArithmeticBinaryNumeric[T](op)
+		return ScalarBinary(getAvx2ArithmeticBinaryNumeric[T](op))
 	} else if cpu.X86.HasSSE42 {
-		return getSSE4ArithmeticBinaryNumeric[T](op)
+		return ScalarBinary(getSSE4ArithmeticBinaryNumeric[T](op))
 	}
 
-	return getGoArithmeticBinaryOpsFloating[T](op)
+	return getGoArithmeticBinaryOpIntegral[T](op)
 }
 
-func getArithmeticBinaryOpsIntegral[T exec.UintTypes | exec.IntTypes](op ArithmeticOp) binaryOps[T, T, T] {
+func getArithmeticBinaryOpFloating[T constraints.Float](op ArithmeticOp) exec.ArrayKernelExec {
 	if cpu.X86.HasAVX2 {
-		return getAvx2ArithmeticBinaryNumeric[T](op)
+		return ScalarBinary(getAvx2ArithmeticBinaryNumeric[T](op))
 	} else if cpu.X86.HasSSE42 {
-		return getSSE4ArithmeticBinaryNumeric[T](op)
+		return ScalarBinary(getSSE4ArithmeticBinaryNumeric[T](op))
 	}
 
-	return getGoArithmeticBinaryOpsIntegral[T](op)
+	return getGoArithmeticBinaryOpFloating[T](op)
 }
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s b/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s
index 19dc2ad03e8..9b5a1a7767c 100644
--- a/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s
+++ b/go/arrow/compute/internal/kernels/base_arithmetic_avx2_amd64.s
@@ -17,26 +17,26 @@ TEXT ·_arithmetic_avx2(SB), $0-48
 	LONG $0x01fe8040         // cmp    sil, 1
 	JNE  LBB0_537
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_158
+	JG   LBB0_291
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
 	JLE  LBB0_5
 	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_191
+	JE   LBB0_324
 	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_203
+	JE   LBB0_336
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
 	JNE  LBB0_537
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_215
+	JAE  LBB0_348
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_220
+	JMP  LBB0_353
 
 LBB0_10:
 	LONG $0x02fe8040         // cmp    sil, 2
-	JE   LBB0_278
+	JE   LBB0_152
 	LONG $0x03fe8040         // cmp    sil, 3
 	JNE  LBB0_537
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
@@ -76,41 +76,41 @@ LBB0_19:
 	WORD $0xf631             // xor    esi, esi
 	JMP  LBB0_94
 
-LBB0_278:
+LBB0_152:
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_291
+	JG   LBB0_165
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_280
+	JLE  LBB0_154
 	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_324
+	JE   LBB0_198
 	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_336
+	JE   LBB0_210
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
 	JNE  LBB0_537
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_348
+	JAE  LBB0_222
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_353
+	JMP  LBB0_227
 
-LBB0_158:
+LBB0_291:
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_159
+	JLE  LBB0_292
 	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_245
+	JE   LBB0_378
 	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_257
+	JE   LBB0_390
 	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
 	JNE  LBB0_537
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_269
+	JAE  LBB0_402
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_274
+	JMP  LBB0_407
 
 LBB0_417:
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
@@ -146,35 +146,35 @@ LBB0_32:
 	WORD $0xf631             // xor    esi, esi
 	JMP  LBB0_148
 
-LBB0_291:
+LBB0_165:
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_292
+	JLE  LBB0_166
 	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_378
+	JE   LBB0_252
 	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_390
+	JE   LBB0_264
 	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
 	JNE  LBB0_537
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_402
+	JAE  LBB0_276
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_407
+	JMP  LBB0_281
 
 LBB0_5:
 	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB0_170
+	JE   LBB0_303
 	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
 	JNE  LBB0_537
 	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
 	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_182
+	JAE  LBB0_315
 	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_187
+	JMP  LBB0_320
 
 LBB0_14:
 	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
@@ -202,31 +202,31 @@ LBB0_21:
 	WORD $0xf631                               // xor    esi, esi
 	JMP  LBB0_61
 
-LBB0_280:
+LBB0_154:
 	WORD $0xff83; BYTE $0x02                   // cmp    edi, 2
-	JE   LBB0_303
+	JE   LBB0_177
 	WORD $0xff83; BYTE $0x03                   // cmp    edi, 3
 	JNE  LBB0_537
 	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
 	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_315
+	JAE  LBB0_189
 	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_320
+	JMP  LBB0_194
 
-LBB0_159:
+LBB0_292:
 	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_224
+	JE   LBB0_357
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
 	JNE  LBB0_537
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_236
+	JAE  LBB0_369
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_241
+	JMP  LBB0_374
 
 LBB0_418:
 	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
@@ -254,36 +254,36 @@ LBB0_33:
 	WORD $0xf631             // xor    esi, esi
 	JMP  LBB0_115
 
-LBB0_292:
+LBB0_166:
 	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_357
+	JE   LBB0_231
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
 	JNE  LBB0_537
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_369
+	JAE  LBB0_243
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_374
+	JMP  LBB0_248
 
-LBB0_191:
+LBB0_324:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_194
+	JAE  LBB0_327
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_199
+	JMP  LBB0_332
 
-LBB0_203:
+LBB0_336:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_206
+	JAE  LBB0_339
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_211
+	JMP  LBB0_344
 
 LBB0_450:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
@@ -321,41 +321,41 @@ LBB0_77:
 	WORD $0xf631             // xor    esi, esi
 	JMP  LBB0_85
 
-LBB0_324:
+LBB0_198:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_327
+	JAE  LBB0_201
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_332
+	JMP  LBB0_206
 
-LBB0_336:
+LBB0_210:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x40f98341         // cmp    r9d, 64
-	JAE  LBB0_339
+	JAE  LBB0_213
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_344
+	JMP  LBB0_218
 
-LBB0_245:
+LBB0_378:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_248
+	JAE  LBB0_381
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_253
+	JMP  LBB0_386
 
-LBB0_257:
+LBB0_390:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_260
+	JAE  LBB0_393
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_265
+	JMP  LBB0_398
 
 LBB0_504:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
@@ -393,32 +393,32 @@ LBB0_131:
 	WORD $0xf631             // xor    esi, esi
 	JMP  LBB0_139
 
-LBB0_378:
+LBB0_252:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_381
+	JAE  LBB0_255
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_386
+	JMP  LBB0_260
 
-LBB0_390:
+LBB0_264:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_393
+	JAE  LBB0_267
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_398
+	JMP  LBB0_272
 
-LBB0_170:
+LBB0_303:
 	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
 	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_173
+	JAE  LBB0_306
 	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_178
+	JMP  LBB0_311
 
 LBB0_429:
 	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
@@ -438,23 +438,23 @@ LBB0_44:
 	WORD $0xf631                               // xor    esi, esi
 	JMP  LBB0_52
 
-LBB0_303:
+LBB0_177:
 	WORD $0x8545; BYTE $0xc9                   // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca                   // mov    r10d, r9d
 	LONG $0x80f98141; WORD $0x0000; BYTE $0x00 // cmp    r9d, 128
-	JAE  LBB0_306
+	JAE  LBB0_180
 	WORD $0xf631                               // xor    esi, esi
-	JMP  LBB0_311
+	JMP  LBB0_185
 
-LBB0_224:
+LBB0_357:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_227
+	JAE  LBB0_360
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_232
+	JMP  LBB0_365
 
 LBB0_483:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
@@ -474,16 +474,16 @@ LBB0_98:
 	WORD $0xf631             // xor    esi, esi
 	JMP  LBB0_106
 
-LBB0_357:
+LBB0_231:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_537
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_360
+	JAE  LBB0_234
 	WORD $0xf631             // xor    esi, esi
-	JMP  LBB0_365
+	JMP  LBB0_239
 
-LBB0_215:
+LBB0_348:
 	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
 	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -497,68 +497,68 @@ LBB0_215:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_220
+	JNE  LBB0_353
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_220
+	JNE  LBB0_353
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0 // and    esi, -32
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_218:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+LBB0_351:
+	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
+	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
 	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
 	LONG $0x20c78348                           // add    rdi, 32
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_218
+	JNE  LBB0_351
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_220:
+LBB0_353:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_222
+	JE   LBB0_355
 
-LBB0_221:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
+LBB0_354:
+	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
+	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
 	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_221
+	JNE  LBB0_354
 
-LBB0_222:
+LBB0_355:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_223:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+LBB0_356:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
 	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
 	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
 	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
 	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_223
+	JNE  LBB0_356
 	JMP  LBB0_537
 
 LBB0_474:
@@ -717,7 +717,7 @@ LBB0_97:
 	JNE  LBB0_97
 	JMP  LBB0_537
 
-LBB0_348:
+LBB0_222:
 	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
 	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -731,71 +731,71 @@ LBB0_348:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_353
+	JNE  LBB0_227
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_353
+	JNE  LBB0_227
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0 // and    esi, -32
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_351:
-	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
-	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
+LBB0_225:
+	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
 	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
 	LONG $0x20c78348                           // add    rdi, 32
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_351
+	JNE  LBB0_225
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_353:
+LBB0_227:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_355
+	JE   LBB0_229
 
-LBB0_354:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
+LBB0_228:
+	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
+	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
 	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_354
+	JNE  LBB0_228
 
-LBB0_355:
+LBB0_229:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_356:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+LBB0_230:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
 	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
 	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
 	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
 	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_356
+	JNE  LBB0_230
 	JMP  LBB0_537
 
-LBB0_269:
+LBB0_402:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
 	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -809,68 +809,68 @@ LBB0_269:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_274
+	JNE  LBB0_407
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_274
+	JNE  LBB0_407
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_272:
-	LONG $0x0410fdc5; BYTE $0xf9               // vmovupd    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20f9             // vmovupd    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60f9             // vmovupd    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x0458fdc5; BYTE $0xfa               // vaddpd    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c58f5c5; WORD $0x20fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5458edc5; WORD $0x40fa             // vaddpd    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c58e5c5; WORD $0x60fa             // vaddpd    ymm3, ymm3, yword [rdx + 8*rdi + 96]
+LBB0_405:
+	LONG $0x0410fdc5; BYTE $0xfa               // vmovupd    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20fa             // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40fa             // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60fa             // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x045cfdc5; BYTE $0xf9               // vsubpd    ymm0, ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c5cf5c5; WORD $0x20f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x545cedc5; WORD $0x40f9             // vsubpd    ymm2, ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c5ce5c5; WORD $0x60f9             // vsubpd    ymm3, ymm3, yword [rcx + 8*rdi + 96]
 	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
 	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
 	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
 	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
 	LONG $0x10c78348                           // add    rdi, 16
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_272
+	JNE  LBB0_405
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_274:
+LBB0_407:
 	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
 	WORD $0xf748; BYTE $0xd7 // not    rdi
 	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_276
+	JE   LBB0_409
 
-LBB0_275:
-	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0458fbc5; BYTE $0xf2   // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
+LBB0_408:
+	LONG $0x0410fbc5; BYTE $0xf2   // vmovsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045cfbc5; BYTE $0xf1   // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
 	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
 	LONG $0x01c68348               // add    rsi, 1
 	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_275
+	JNE  LBB0_408
 
-LBB0_276:
+LBB0_409:
 	LONG $0x03ff8348 // cmp    rdi, 3
 	JB   LBB0_537
 
-LBB0_277:
-	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x0458fbc5; BYTE $0xf2               // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
+LBB0_410:
+	LONG $0x0410fbc5; BYTE $0xf2               // vmovsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045cfbc5; BYTE $0xf1               // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
 	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x4458fbc5; WORD $0x08f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x4410fbc5; WORD $0x08f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x445cfbc5; WORD $0x08f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 8]
 	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x4458fbc5; WORD $0x10f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x4410fbc5; WORD $0x10f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x445cfbc5; WORD $0x10f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 16]
 	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x4458fbc5; WORD $0x18f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x4410fbc5; WORD $0x18f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x445cfbc5; WORD $0x18f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 24]
 	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
 	LONG $0x04c68348                           // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_277
+	JNE  LBB0_410
 	JMP  LBB0_537
 
 LBB0_528:
@@ -1029,7 +1029,7 @@ LBB0_151:
 	JNE  LBB0_151
 	JMP  LBB0_537
 
-LBB0_402:
+LBB0_276:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
 	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -1043,71 +1043,71 @@ LBB0_402:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_407
+	JNE  LBB0_281
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_407
+	JNE  LBB0_281
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_405:
-	LONG $0x0410fdc5; BYTE $0xfa               // vmovupd    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c10fdc5; WORD $0x20fa             // vmovupd    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x5410fdc5; WORD $0x40fa             // vmovupd    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c10fdc5; WORD $0x60fa             // vmovupd    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x045cfdc5; BYTE $0xf9               // vsubpd    ymm0, ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c5cf5c5; WORD $0x20f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x545cedc5; WORD $0x40f9             // vsubpd    ymm2, ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c5ce5c5; WORD $0x60f9             // vsubpd    ymm3, ymm3, yword [rcx + 8*rdi + 96]
+LBB0_279:
+	LONG $0x0410fdc5; BYTE $0xf9               // vmovupd    ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c10fdc5; WORD $0x20f9             // vmovupd    ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x5410fdc5; WORD $0x40f9             // vmovupd    ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c10fdc5; WORD $0x60f9             // vmovupd    ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x0458fdc5; BYTE $0xfa               // vaddpd    ymm0, ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c58f5c5; WORD $0x20fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x5458edc5; WORD $0x40fa             // vaddpd    ymm2, ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c58e5c5; WORD $0x60fa             // vaddpd    ymm3, ymm3, yword [rdx + 8*rdi + 96]
 	LONG $0x117dc1c4; WORD $0xf804             // vmovupd    yword [r8 + 8*rdi], ymm0
 	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm1
 	LONG $0x117dc1c4; WORD $0xf854; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm2
 	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm3
 	LONG $0x10c78348                           // add    rdi, 16
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_405
+	JNE  LBB0_279
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_407:
+LBB0_281:
 	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
 	WORD $0xf748; BYTE $0xd7 // not    rdi
 	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_409
+	JE   LBB0_283
 
-LBB0_408:
-	LONG $0x0410fbc5; BYTE $0xf2   // vmovsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045cfbc5; BYTE $0xf1   // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
+LBB0_282:
+	LONG $0x0410fbc5; BYTE $0xf1   // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0458fbc5; BYTE $0xf2   // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
 	LONG $0x117bc1c4; WORD $0xf004 // vmovsd    qword [r8 + 8*rsi], xmm0
 	LONG $0x01c68348               // add    rsi, 1
 	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_408
+	JNE  LBB0_282
 
-LBB0_409:
+LBB0_283:
 	LONG $0x03ff8348 // cmp    rdi, 3
 	JB   LBB0_537
 
-LBB0_410:
-	LONG $0x0410fbc5; BYTE $0xf2               // vmovsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045cfbc5; BYTE $0xf1               // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi]
+LBB0_284:
+	LONG $0x0410fbc5; BYTE $0xf1               // vmovsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x0458fbc5; BYTE $0xf2               // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi]
 	LONG $0x117bc1c4; WORD $0xf004             // vmovsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x4410fbc5; WORD $0x08f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x445cfbc5; WORD $0x08f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x4410fbc5; WORD $0x08f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x4458fbc5; WORD $0x08f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 8]
 	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x08 // vmovsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x4410fbc5; WORD $0x10f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x445cfbc5; WORD $0x10f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x4410fbc5; WORD $0x10f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x4458fbc5; WORD $0x10f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 16]
 	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x10 // vmovsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x4410fbc5; WORD $0x18f2             // vmovsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x445cfbc5; WORD $0x18f1             // vsubsd    xmm0, xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x4410fbc5; WORD $0x18f1             // vmovsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x4458fbc5; WORD $0x18f2             // vaddsd    xmm0, xmm0, qword [rdx + 8*rsi + 24]
 	LONG $0x117bc1c4; WORD $0xf044; BYTE $0x18 // vmovsd    qword [r8 + 8*rsi + 24], xmm0
 	LONG $0x04c68348                           // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_410
+	JNE  LBB0_284
 	JMP  LBB0_537
 
-LBB0_182:
+LBB0_315:
 	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
 	LONG $0x12048d4a         // lea    rax, [rdx + r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -1121,68 +1121,68 @@ LBB0_182:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_187
+	JNE  LBB0_320
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_187
+	JNE  LBB0_320
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0x80 // and    esi, -128
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_185:
-	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
-	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
-	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
-	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
-	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
-	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
+LBB0_318:
+	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
+	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
+	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
+	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
+	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
+	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
 	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
 	LONG $0x80ef8348                           // sub    rdi, -128
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_185
+	JNE  LBB0_318
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_187:
+LBB0_320:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_189
+	JE   LBB0_322
 
-LBB0_188:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+LBB0_321:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
 	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_188
+	JNE  LBB0_321
 
-LBB0_189:
+LBB0_322:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_190:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+LBB0_323:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
 	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
 	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
 	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
 	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_190
+	JNE  LBB0_323
 	JMP  LBB0_537
 
 LBB0_441:
@@ -1341,7 +1341,7 @@ LBB0_64:
 	JNE  LBB0_64
 	JMP  LBB0_537
 
-LBB0_315:
+LBB0_189:
 	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
 	LONG $0x12048d4a         // lea    rax, [rdx + r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -1355,71 +1355,71 @@ LBB0_315:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_320
+	JNE  LBB0_194
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_320
+	JNE  LBB0_194
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0x80 // and    esi, -128
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_318:
-	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
-	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
-	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
-	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
-	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
-	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
+LBB0_192:
+	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
+	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
+	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
+	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
+	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
+	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
 	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
 	LONG $0x80ef8348                           // sub    rdi, -128
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_318
+	JNE  LBB0_192
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_320:
+LBB0_194:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_322
+	JE   LBB0_196
 
-LBB0_321:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+LBB0_195:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
 	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_321
+	JNE  LBB0_195
 
-LBB0_322:
+LBB0_196:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_323:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+LBB0_197:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
 	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
 	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
 	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
 	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_323
+	JNE  LBB0_197
 	JMP  LBB0_537
 
-LBB0_236:
+LBB0_369:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
 	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -1433,68 +1433,68 @@ LBB0_236:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_241
+	JNE  LBB0_374
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_241
+	JNE  LBB0_374
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_239:
-	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
+LBB0_372:
+	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
+	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
 	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
 	LONG $0x10c78348                           // add    rdi, 16
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_239
+	JNE  LBB0_372
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_241:
+LBB0_374:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_243
+	JE   LBB0_376
 
-LBB0_242:
-	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
+LBB0_375:
+	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
+	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
 	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
 	LONG $0x01c68348 // add    rsi, 1
 	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_242
+	JNE  LBB0_375
 
-LBB0_243:
+LBB0_376:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_244:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+LBB0_377:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
 	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
 	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
 	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
 	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_244
+	JNE  LBB0_377
 	JMP  LBB0_537
 
 LBB0_495:
@@ -1653,7 +1653,7 @@ LBB0_118:
 	JNE  LBB0_118
 	JMP  LBB0_537
 
-LBB0_369:
+LBB0_243:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
 	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -1667,71 +1667,71 @@ LBB0_369:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_374
+	JNE  LBB0_248
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_374
+	JNE  LBB0_248
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_372:
-	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
-	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
+LBB0_246:
+	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
+	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
 	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
 	LONG $0x10c78348                           // add    rdi, 16
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_372
+	JNE  LBB0_246
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_374:
+LBB0_248:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_376
+	JE   LBB0_250
 
-LBB0_375:
-	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
-	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
+LBB0_249:
+	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
+	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
 	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
 	LONG $0x01c68348 // add    rsi, 1
 	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_375
+	JNE  LBB0_249
 
-LBB0_376:
+LBB0_250:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_377:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+LBB0_251:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
 	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
 	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
 	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
 	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_377
+	JNE  LBB0_251
 	JMP  LBB0_537
 
-LBB0_194:
+LBB0_327:
 	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
 	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -1745,71 +1745,71 @@ LBB0_194:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_199
+	JNE  LBB0_332
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_199
+	JNE  LBB0_332
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xc0 // and    esi, -64
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_197:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
+LBB0_330:
+	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
+	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
 	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
 	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
 	LONG $0x40c78348                           // add    rdi, 64
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_197
+	JNE  LBB0_330
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_199:
+LBB0_332:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_201
+	JE   LBB0_334
 
-LBB0_200:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
+LBB0_333:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
 	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_200
+	JNE  LBB0_333
 
-LBB0_201:
+LBB0_334:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_202:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+LBB0_335:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
 	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
 	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
 	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_202
+	JNE  LBB0_335
 	JMP  LBB0_537
 
-LBB0_206:
+LBB0_339:
 	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
 	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -1823,68 +1823,68 @@ LBB0_206:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_211
+	JNE  LBB0_344
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_211
+	JNE  LBB0_344
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xc0 // and    esi, -64
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_209:
-	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
-	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
-	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
+LBB0_342:
+	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
+	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
+	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
 	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
 	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
 	LONG $0x40c78348                           // add    rdi, 64
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_209
+	JNE  LBB0_342
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_211:
+LBB0_344:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_213
+	JE   LBB0_346
 
-LBB0_212:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
+LBB0_345:
+	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
 	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_212
+	JNE  LBB0_345
 
-LBB0_213:
+LBB0_346:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_214:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+LBB0_347:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
 	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
 	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
 	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_214
+	JNE  LBB0_347
 	JMP  LBB0_537
 
 LBB0_453:
@@ -2199,7 +2199,7 @@ LBB0_88:
 	JNE  LBB0_88
 	JMP  LBB0_537
 
-LBB0_327:
+LBB0_201:
 	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
 	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -2213,71 +2213,71 @@ LBB0_327:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_332
+	JNE  LBB0_206
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_332
+	JNE  LBB0_206
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xc0 // and    esi, -64
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_330:
-	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
-	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
+LBB0_204:
+	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
+	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
 	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
 	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
 	LONG $0x40c78348                           // add    rdi, 64
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_330
+	JNE  LBB0_204
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_332:
+LBB0_206:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_334
+	JE   LBB0_208
 
-LBB0_333:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+LBB0_207:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
 	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_333
+	JNE  LBB0_207
 
-LBB0_334:
+LBB0_208:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_335:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+LBB0_209:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
 	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
 	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
 	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_335
+	JNE  LBB0_209
 	JMP  LBB0_537
 
-LBB0_339:
+LBB0_213:
 	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
 	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -2291,71 +2291,71 @@ LBB0_339:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_344
+	JNE  LBB0_218
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_344
+	JNE  LBB0_218
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xc0 // and    esi, -64
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_342:
-	LONG $0x046ffec5; BYTE $0x7a               // vmovdqu    ymm0, yword [rdx + 2*rdi]
-	LONG $0x4c6ffec5; WORD $0x207a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 32]
-	LONG $0x546ffec5; WORD $0x407a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x607a             // vmovdqu    ymm3, yword [rdx + 2*rdi + 96]
-	LONG $0x04f9fdc5; BYTE $0x79               // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi]
-	LONG $0x4cf9f5c5; WORD $0x2079             // vpsubw    ymm1, ymm1, yword [rcx + 2*rdi + 32]
-	LONG $0x54f9edc5; WORD $0x4079             // vpsubw    ymm2, ymm2, yword [rcx + 2*rdi + 64]
-	LONG $0x5cf9e5c5; WORD $0x6079             // vpsubw    ymm3, ymm3, yword [rcx + 2*rdi + 96]
+LBB0_216:
+	LONG $0x046ffec5; BYTE $0x79               // vmovdqu    ymm0, yword [rcx + 2*rdi]
+	LONG $0x4c6ffec5; WORD $0x2079             // vmovdqu    ymm1, yword [rcx + 2*rdi + 32]
+	LONG $0x546ffec5; WORD $0x4079             // vmovdqu    ymm2, yword [rcx + 2*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6079             // vmovdqu    ymm3, yword [rcx + 2*rdi + 96]
+	LONG $0x04fdfdc5; BYTE $0x7a               // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi]
+	LONG $0x4cfdf5c5; WORD $0x207a             // vpaddw    ymm1, ymm1, yword [rdx + 2*rdi + 32]
+	LONG $0x54fdedc5; WORD $0x407a             // vpaddw    ymm2, ymm2, yword [rdx + 2*rdi + 64]
+	LONG $0x5cfde5c5; WORD $0x607a             // vpaddw    ymm3, ymm3, yword [rdx + 2*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x7804             // vmovdqu    yword [r8 + 2*rdi], ymm0
 	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm2
 	LONG $0x7f7ec1c4; WORD $0x785c; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm3
 	LONG $0x40c78348                           // add    rdi, 64
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_342
+	JNE  LBB0_216
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_344:
+LBB0_218:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_346
+	JE   LBB0_220
 
-LBB0_345:
-	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+LBB0_219:
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	LONG $0x723c0366             // add    di, word [rdx + 2*rsi]
 	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc08348             // add    rax, -1
-	JNE  LBB0_345
+	JNE  LBB0_219
 
-LBB0_346:
+LBB0_220:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_347:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+LBB0_221:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
 	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
 	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
 	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_347
+	JNE  LBB0_221
 	JMP  LBB0_537
 
-LBB0_248:
+LBB0_381:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
 	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -2369,71 +2369,71 @@ LBB0_248:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_253
+	JNE  LBB0_386
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_253
+	JNE  LBB0_386
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_251:
-	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
-	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
-	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
+LBB0_384:
+	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
+	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
+	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
 	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
 	LONG $0x10c78348                           // add    rdi, 16
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_251
+	JNE  LBB0_384
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_253:
+LBB0_386:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_255
+	JE   LBB0_388
 
-LBB0_254:
-	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
-	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
+LBB0_387:
+	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
+	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
 	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
 	LONG $0x01c68348 // add    rsi, 1
 	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_254
+	JNE  LBB0_387
 
-LBB0_255:
+LBB0_388:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_256:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+LBB0_389:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
 	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
 	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
 	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
 	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_256
+	JNE  LBB0_389
 	JMP  LBB0_537
 
-LBB0_260:
+LBB0_393:
 	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
 	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -2447,68 +2447,68 @@ LBB0_260:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_265
+	JNE  LBB0_398
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_265
+	JNE  LBB0_398
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0 // and    esi, -32
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_263:
-	LONG $0x0410fcc5; BYTE $0xb9               // vmovups    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20b9             // vmovups    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40b9             // vmovups    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60b9             // vmovups    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x0458fcc5; BYTE $0xba               // vaddps    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c58f4c5; WORD $0x20ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5458ecc5; WORD $0x40ba             // vaddps    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c58e4c5; WORD $0x60ba             // vaddps    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+LBB0_396:
+	LONG $0x0410fcc5; BYTE $0xba               // vmovups    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20ba             // vmovups    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40ba             // vmovups    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60ba             // vmovups    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x045cfcc5; BYTE $0xb9               // vsubps    ymm0, ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c5cf4c5; WORD $0x20b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x545cecc5; WORD $0x40b9             // vsubps    ymm2, ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c5ce4c5; WORD $0x60b9             // vsubps    ymm3, ymm3, yword [rcx + 4*rdi + 96]
 	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
 	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
 	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
 	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
 	LONG $0x20c78348                           // add    rdi, 32
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_263
+	JNE  LBB0_396
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_265:
+LBB0_398:
 	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
 	WORD $0xf748; BYTE $0xd7 // not    rdi
 	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_267
+	JE   LBB0_400
 
-LBB0_266:
-	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0458fac5; BYTE $0xb2   // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
+LBB0_399:
+	LONG $0x0410fac5; BYTE $0xb2   // vmovss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045cfac5; BYTE $0xb1   // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
 	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
 	LONG $0x01c68348               // add    rsi, 1
 	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_266
+	JNE  LBB0_399
 
-LBB0_267:
+LBB0_400:
 	LONG $0x03ff8348 // cmp    rdi, 3
 	JB   LBB0_537
 
-LBB0_268:
-	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x0458fac5; BYTE $0xb2               // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
+LBB0_401:
+	LONG $0x0410fac5; BYTE $0xb2               // vmovss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045cfac5; BYTE $0xb1               // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
 	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x4458fac5; WORD $0x04b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x4410fac5; WORD $0x04b2             // vmovss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x445cfac5; WORD $0x04b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 4]
 	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x4458fac5; WORD $0x08b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x4410fac5; WORD $0x08b2             // vmovss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x445cfac5; WORD $0x08b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 8]
 	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x4458fac5; WORD $0x0cb2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x4410fac5; WORD $0x0cb2             // vmovss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x445cfac5; WORD $0x0cb1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 12]
 	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
 	LONG $0x04c68348                           // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_268
+	JNE  LBB0_401
 	JMP  LBB0_537
 
 LBB0_507:
@@ -2823,7 +2823,7 @@ LBB0_142:
 	JNE  LBB0_142
 	JMP  LBB0_537
 
-LBB0_381:
+LBB0_255:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
 	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -2837,71 +2837,71 @@ LBB0_381:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_386
+	JNE  LBB0_260
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_386
+	JNE  LBB0_260
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_384:
-	LONG $0x046ffec5; BYTE $0xfa               // vmovdqu    ymm0, yword [rdx + 8*rdi]
-	LONG $0x4c6ffec5; WORD $0x20fa             // vmovdqu    ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 96]
-	LONG $0x04fbfdc5; BYTE $0xf9               // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi]
-	LONG $0x4cfbf5c5; WORD $0x20f9             // vpsubq    ymm1, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x54fbedc5; WORD $0x40f9             // vpsubq    ymm2, ymm2, yword [rcx + 8*rdi + 64]
-	LONG $0x5cfbe5c5; WORD $0x60f9             // vpsubq    ymm3, ymm3, yword [rcx + 8*rdi + 96]
+LBB0_258:
+	LONG $0x046ffec5; BYTE $0xf9               // vmovdqu    ymm0, yword [rcx + 8*rdi]
+	LONG $0x4c6ffec5; WORD $0x20f9             // vmovdqu    ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40f9             // vmovdqu    ymm2, yword [rcx + 8*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60f9             // vmovdqu    ymm3, yword [rcx + 8*rdi + 96]
+	LONG $0x04d4fdc5; BYTE $0xfa               // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi]
+	LONG $0x4cd4f5c5; WORD $0x20fa             // vpaddq    ymm1, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x54d4edc5; WORD $0x40fa             // vpaddq    ymm2, ymm2, yword [rdx + 8*rdi + 64]
+	LONG $0x5cd4e5c5; WORD $0x60fa             // vpaddq    ymm3, ymm3, yword [rdx + 8*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xf804             // vmovdqu    yword [r8 + 8*rdi], ymm0
 	LONG $0x7f7ec1c4; WORD $0xf84c; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm3
 	LONG $0x10c78348                           // add    rdi, 16
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_384
+	JNE  LBB0_258
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_386:
+LBB0_260:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_388
+	JE   LBB0_262
 
-LBB0_387:
-	LONG $0xf23c8b48 // mov    rdi, qword [rdx + 8*rsi]
-	LONG $0xf13c2b48 // sub    rdi, qword [rcx + 8*rsi]
+LBB0_261:
+	LONG $0xf13c8b48 // mov    rdi, qword [rcx + 8*rsi]
+	LONG $0xf23c0348 // add    rdi, qword [rdx + 8*rsi]
 	LONG $0xf03c8949 // mov    qword [r8 + 8*rsi], rdi
 	LONG $0x01c68348 // add    rsi, 1
 	LONG $0xffc08348 // add    rax, -1
-	JNE  LBB0_387
+	JNE  LBB0_261
 
-LBB0_388:
+LBB0_262:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
-
-LBB0_389:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+
+LBB0_263:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
 	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
 	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
 	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
 	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_389
+	JNE  LBB0_263
 	JMP  LBB0_537
 
-LBB0_393:
+LBB0_267:
 	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
 	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -2915,71 +2915,71 @@ LBB0_393:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_398
+	JNE  LBB0_272
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_398
+	JNE  LBB0_272
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0 // and    esi, -32
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_396:
-	LONG $0x0410fcc5; BYTE $0xba               // vmovups    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c10fcc5; WORD $0x20ba             // vmovups    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x5410fcc5; WORD $0x40ba             // vmovups    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c10fcc5; WORD $0x60ba             // vmovups    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x045cfcc5; BYTE $0xb9               // vsubps    ymm0, ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c5cf4c5; WORD $0x20b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x545cecc5; WORD $0x40b9             // vsubps    ymm2, ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c5ce4c5; WORD $0x60b9             // vsubps    ymm3, ymm3, yword [rcx + 4*rdi + 96]
+LBB0_270:
+	LONG $0x0410fcc5; BYTE $0xb9               // vmovups    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c10fcc5; WORD $0x20b9             // vmovups    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x5410fcc5; WORD $0x40b9             // vmovups    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c10fcc5; WORD $0x60b9             // vmovups    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x0458fcc5; BYTE $0xba               // vaddps    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c58f4c5; WORD $0x20ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x5458ecc5; WORD $0x40ba             // vaddps    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c58e4c5; WORD $0x60ba             // vaddps    ymm3, ymm3, yword [rdx + 4*rdi + 96]
 	LONG $0x117cc1c4; WORD $0xb804             // vmovups    yword [r8 + 4*rdi], ymm0
 	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm1
 	LONG $0x117cc1c4; WORD $0xb854; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm2
 	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm3
 	LONG $0x20c78348                           // add    rdi, 32
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_396
+	JNE  LBB0_270
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_398:
+LBB0_272:
 	WORD $0x8948; BYTE $0xf7 // mov    rdi, rsi
 	WORD $0xf748; BYTE $0xd7 // not    rdi
 	WORD $0x014c; BYTE $0xd7 // add    rdi, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_400
+	JE   LBB0_274
 
-LBB0_399:
-	LONG $0x0410fac5; BYTE $0xb2   // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045cfac5; BYTE $0xb1   // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
+LBB0_273:
+	LONG $0x0410fac5; BYTE $0xb1   // vmovss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x0458fac5; BYTE $0xb2   // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
 	LONG $0x117ac1c4; WORD $0xb004 // vmovss    dword [r8 + 4*rsi], xmm0
 	LONG $0x01c68348               // add    rsi, 1
 	LONG $0xffc08348               // add    rax, -1
-	JNE  LBB0_399
+	JNE  LBB0_273
 
-LBB0_400:
+LBB0_274:
 	LONG $0x03ff8348 // cmp    rdi, 3
 	JB   LBB0_537
 
-LBB0_401:
-	LONG $0x0410fac5; BYTE $0xb2               // vmovss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045cfac5; BYTE $0xb1               // vsubss    xmm0, xmm0, dword [rcx + 4*rsi]
+LBB0_275:
+	LONG $0x0410fac5; BYTE $0xb1               // vmovss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x0458fac5; BYTE $0xb2               // vaddss    xmm0, xmm0, dword [rdx + 4*rsi]
 	LONG $0x117ac1c4; WORD $0xb004             // vmovss    dword [r8 + 4*rsi], xmm0
-	LONG $0x4410fac5; WORD $0x04b2             // vmovss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x445cfac5; WORD $0x04b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x4410fac5; WORD $0x04b1             // vmovss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x4458fac5; WORD $0x04b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 4]
 	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x04 // vmovss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x4410fac5; WORD $0x08b2             // vmovss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x445cfac5; WORD $0x08b1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x4410fac5; WORD $0x08b1             // vmovss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x4458fac5; WORD $0x08b2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 8]
 	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x08 // vmovss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x4410fac5; WORD $0x0cb2             // vmovss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x445cfac5; WORD $0x0cb1             // vsubss    xmm0, xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x4410fac5; WORD $0x0cb1             // vmovss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x4458fac5; WORD $0x0cb2             // vaddss    xmm0, xmm0, dword [rdx + 4*rsi + 12]
 	LONG $0x117ac1c4; WORD $0xb044; BYTE $0x0c // vmovss    dword [r8 + 4*rsi + 12], xmm0
 	LONG $0x04c68348                           // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_401
+	JNE  LBB0_275
 	JMP  LBB0_537
 
-LBB0_173:
+LBB0_306:
 	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
 	LONG $0x12048d4a         // lea    rax, [rdx + r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -2993,68 +2993,68 @@ LBB0_173:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_178
+	JNE  LBB0_311
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_178
+	JNE  LBB0_311
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0x80 // and    esi, -128
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_176:
-	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
-	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
-	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
-	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
-	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
-	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
+LBB0_309:
+	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
+	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
+	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
+	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
+	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
+	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
 	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
 	LONG $0x80ef8348                           // sub    rdi, -128
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_176
+	JNE  LBB0_309
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_178:
+LBB0_311:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_180
+	JE   LBB0_313
 
-LBB0_179:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+LBB0_312:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
 	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_179
+	JNE  LBB0_312
 
-LBB0_180:
+LBB0_313:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_181:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+LBB0_314:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
 	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
 	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
 	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
 	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_181
+	JNE  LBB0_314
 	JMP  LBB0_537
 
 LBB0_432:
@@ -3213,7 +3213,7 @@ LBB0_55:
 	JNE  LBB0_55
 	JMP  LBB0_537
 
-LBB0_306:
+LBB0_180:
 	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
 	LONG $0x12048d4a         // lea    rax, [rdx + r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -3227,71 +3227,71 @@ LBB0_306:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_311
+	JNE  LBB0_185
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_311
+	JNE  LBB0_185
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0x80 // and    esi, -128
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_309:
-	LONG $0x046ffec5; BYTE $0x3a               // vmovdqu    ymm0, yword [rdx + rdi]
-	LONG $0x4c6ffec5; WORD $0x203a             // vmovdqu    ymm1, yword [rdx + rdi + 32]
-	LONG $0x546ffec5; WORD $0x403a             // vmovdqu    ymm2, yword [rdx + rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x603a             // vmovdqu    ymm3, yword [rdx + rdi + 96]
-	LONG $0x04f8fdc5; BYTE $0x39               // vpsubb    ymm0, ymm0, yword [rcx + rdi]
-	LONG $0x4cf8f5c5; WORD $0x2039             // vpsubb    ymm1, ymm1, yword [rcx + rdi + 32]
-	LONG $0x54f8edc5; WORD $0x4039             // vpsubb    ymm2, ymm2, yword [rcx + rdi + 64]
-	LONG $0x5cf8e5c5; WORD $0x6039             // vpsubb    ymm3, ymm3, yword [rcx + rdi + 96]
+LBB0_183:
+	LONG $0x046ffec5; BYTE $0x39               // vmovdqu    ymm0, yword [rcx + rdi]
+	LONG $0x4c6ffec5; WORD $0x2039             // vmovdqu    ymm1, yword [rcx + rdi + 32]
+	LONG $0x546ffec5; WORD $0x4039             // vmovdqu    ymm2, yword [rcx + rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x6039             // vmovdqu    ymm3, yword [rcx + rdi + 96]
+	LONG $0x04fcfdc5; BYTE $0x3a               // vpaddb    ymm0, ymm0, yword [rdx + rdi]
+	LONG $0x4cfcf5c5; WORD $0x203a             // vpaddb    ymm1, ymm1, yword [rdx + rdi + 32]
+	LONG $0x54fcedc5; WORD $0x403a             // vpaddb    ymm2, ymm2, yword [rdx + rdi + 64]
+	LONG $0x5cfce5c5; WORD $0x603a             // vpaddb    ymm3, ymm3, yword [rdx + rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x3804             // vmovdqu    yword [r8 + rdi], ymm0
 	LONG $0x7f7ec1c4; WORD $0x384c; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm3
 	LONG $0x80ef8348                           // sub    rdi, -128
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_309
+	JNE  LBB0_183
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_311:
+LBB0_185:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_313
+	JE   LBB0_187
 
-LBB0_312:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+LBB0_186:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
 	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_312
+	JNE  LBB0_186
 
-LBB0_313:
+LBB0_187:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_314:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+LBB0_188:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
 	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
 	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
 	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
 	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_314
+	JNE  LBB0_188
 	JMP  LBB0_537
 
-LBB0_227:
+LBB0_360:
 	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
 	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -3305,68 +3305,68 @@ LBB0_227:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_232
+	JNE  LBB0_365
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_232
+	JNE  LBB0_365
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0 // and    esi, -32
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_230:
-	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
-	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
-	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
+LBB0_363:
+	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
+	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
+	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
 	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
 	LONG $0x20c78348                           // add    rdi, 32
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_230
+	JNE  LBB0_363
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_232:
+LBB0_365:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_234
+	JE   LBB0_367
 
-LBB0_233:
-	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
-	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
+LBB0_366:
+	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
+	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
 	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_233
+	JNE  LBB0_366
 
-LBB0_234:
+LBB0_367:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_235:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+LBB0_368:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
 	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
 	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
 	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
 	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_235
+	JNE  LBB0_368
 	JMP  LBB0_537
 
 LBB0_486:
@@ -3525,7 +3525,7 @@ LBB0_109:
 	JNE  LBB0_109
 	JMP  LBB0_537
 
-LBB0_360:
+LBB0_234:
 	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
 	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -3539,68 +3539,68 @@ LBB0_360:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_365
+	JNE  LBB0_239
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_365
+	JNE  LBB0_239
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0 // and    esi, -32
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_363:
-	LONG $0x046ffec5; BYTE $0xba               // vmovdqu    ymm0, yword [rdx + 4*rdi]
-	LONG $0x4c6ffec5; WORD $0x20ba             // vmovdqu    ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x546ffec5; WORD $0x40ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 64]
-	LONG $0x5c6ffec5; WORD $0x60ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 96]
-	LONG $0x04fafdc5; BYTE $0xb9               // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi]
-	LONG $0x4cfaf5c5; WORD $0x20b9             // vpsubd    ymm1, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x54faedc5; WORD $0x40b9             // vpsubd    ymm2, ymm2, yword [rcx + 4*rdi + 64]
-	LONG $0x5cfae5c5; WORD $0x60b9             // vpsubd    ymm3, ymm3, yword [rcx + 4*rdi + 96]
+LBB0_237:
+	LONG $0x046ffec5; BYTE $0xb9               // vmovdqu    ymm0, yword [rcx + 4*rdi]
+	LONG $0x4c6ffec5; WORD $0x20b9             // vmovdqu    ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x546ffec5; WORD $0x40b9             // vmovdqu    ymm2, yword [rcx + 4*rdi + 64]
+	LONG $0x5c6ffec5; WORD $0x60b9             // vmovdqu    ymm3, yword [rcx + 4*rdi + 96]
+	LONG $0x04fefdc5; BYTE $0xba               // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi]
+	LONG $0x4cfef5c5; WORD $0x20ba             // vpaddd    ymm1, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x54feedc5; WORD $0x40ba             // vpaddd    ymm2, ymm2, yword [rdx + 4*rdi + 64]
+	LONG $0x5cfee5c5; WORD $0x60ba             // vpaddd    ymm3, ymm3, yword [rdx + 4*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xb804             // vmovdqu    yword [r8 + 4*rdi], ymm0
 	LONG $0x7f7ec1c4; WORD $0xb84c; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm3
 	LONG $0x20c78348                           // add    rdi, 32
 	WORD $0x3948; BYTE $0xfe                   // cmp    rsi, rdi
-	JNE  LBB0_363
+	JNE  LBB0_237
 	WORD $0x394c; BYTE $0xd6                   // cmp    rsi, r10
 	JE   LBB0_537
 
-LBB0_365:
+LBB0_239:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd0 // mov    rax, r10
 	LONG $0x03e08348         // and    rax, 3
-	JE   LBB0_367
+	JE   LBB0_241
 
-LBB0_366:
-	WORD $0x3c8b; BYTE $0xb2 // mov    edi, dword [rdx + 4*rsi]
-	WORD $0x3c2b; BYTE $0xb1 // sub    edi, dword [rcx + 4*rsi]
+LBB0_240:
+	WORD $0x3c8b; BYTE $0xb1 // mov    edi, dword [rcx + 4*rsi]
+	WORD $0x3c03; BYTE $0xb2 // add    edi, dword [rdx + 4*rsi]
 	LONG $0xb03c8941         // mov    dword [r8 + 4*rsi], edi
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc08348         // add    rax, -1
-	JNE  LBB0_366
+	JNE  LBB0_240
 
-LBB0_367:
+LBB0_241:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_537
 
-LBB0_368:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+LBB0_242:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
 	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
 	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
 	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
 	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_368
+	JNE  LBB0_242
 
 LBB0_537:
 	VZEROUPPER
@@ -3657,7 +3657,7 @@ LBB1_421:
 
 LBB1_422:
 	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
+	WORD $0xc129             // sub    ecx, eax
 	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
@@ -3669,16 +3669,16 @@ LBB1_423:
 
 LBB1_424:
 	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
 	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
 	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -3856,7 +3856,7 @@ LBB1_445:
 
 LBB1_446:
 	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
+	WORD $0xc101             // add    ecx, eax
 	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
@@ -3868,16 +3868,16 @@ LBB1_447:
 
 LBB1_448:
 	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0xc101                 // add    ecx, eax
 	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0xc101                 // add    ecx, eax
 	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
 	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0xc101                 // add    ecx, eax
 	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
 	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0xc101                 // add    ecx, eax
 	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -3918,7 +3918,8 @@ LBB1_453:
 	JE   LBB1_455
 
 LBB1_454:
-	LONG $0x0c58fbc5; BYTE $0xca   // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
+	LONG $0x0c10fbc5; BYTE $0xca   // vmovsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85cf3c5               // vsubsd    xmm1, xmm1, xmm0
 	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
 	LONG $0x01c18348               // add    rcx, 1
 	LONG $0xffc78348               // add    rdi, -1
@@ -3929,13 +3930,17 @@ LBB1_455:
 	JB   LBB1_737
 
 LBB1_456:
-	LONG $0x0c58fbc5; BYTE $0xca               // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
+	LONG $0x0c10fbc5; BYTE $0xca               // vmovsd    xmm1, qword [rdx + 8*rcx]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
 	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c58fbc5; WORD $0x08ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 8]
+	LONG $0x4c10fbc5; WORD $0x08ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 8]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
 	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c58fbc5; WORD $0x10ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 16]
+	LONG $0x4c10fbc5; WORD $0x10ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 16]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
 	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c58fbc5; WORD $0x18ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 24]
+	LONG $0x4c10fbc5; WORD $0x18ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 24]
+	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
 	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
 	LONG $0x04c18348                           // add    rcx, 4
 	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
@@ -4097,8 +4102,7 @@ LBB1_477:
 	JE   LBB1_479
 
 LBB1_478:
-	LONG $0x0c10fbc5; BYTE $0xca   // vmovsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85cf3c5               // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x0c58fbc5; BYTE $0xca   // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
 	LONG $0x117bc1c4; WORD $0xc80c // vmovsd    qword [r8 + 8*rcx], xmm1
 	LONG $0x01c18348               // add    rcx, 1
 	LONG $0xffc78348               // add    rdi, -1
@@ -4109,17 +4113,13 @@ LBB1_479:
 	JB   LBB1_737
 
 LBB1_480:
-	LONG $0x0c10fbc5; BYTE $0xca               // vmovsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x0c58fbc5; BYTE $0xca               // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx]
 	LONG $0x117bc1c4; WORD $0xc80c             // vmovsd    qword [r8 + 8*rcx], xmm1
-	LONG $0x4c10fbc5; WORD $0x08ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x4c58fbc5; WORD $0x08ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 8]
 	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x08 // vmovsd    qword [r8 + 8*rcx + 8], xmm1
-	LONG $0x4c10fbc5; WORD $0x10ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x4c58fbc5; WORD $0x10ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 16]
 	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x10 // vmovsd    qword [r8 + 8*rcx + 16], xmm1
-	LONG $0x4c10fbc5; WORD $0x18ca             // vmovsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc85cf3c5                           // vsubsd    xmm1, xmm1, xmm0
+	LONG $0x4c58fbc5; WORD $0x18ca             // vaddsd    xmm1, xmm0, qword [rdx + 8*rcx + 24]
 	LONG $0x117bc1c4; WORD $0xc84c; BYTE $0x18 // vmovsd    qword [r8 + 8*rcx + 24], xmm1
 	LONG $0x04c18348                           // add    rcx, 4
 	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
@@ -4157,7 +4157,7 @@ LBB1_485:
 
 LBB1_486:
 	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
+	WORD $0xc128     // sub    cl, al
 	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
 	LONG $0x01c68348 // add    rsi, 1
 	LONG $0xffc78348 // add    rdi, -1
@@ -4169,16 +4169,16 @@ LBB1_487:
 
 LBB1_488:
 	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
+	WORD $0xc128                 // sub    cl, al
 	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
 	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
+	WORD $0xc128                 // sub    cl, al
 	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
 	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
+	WORD $0xc128                 // sub    cl, al
 	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
 	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
+	WORD $0xc128                 // sub    cl, al
 	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -4334,7 +4334,7 @@ LBB1_509:
 
 LBB1_510:
 	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
+	WORD $0xc100     // add    cl, al
 	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
 	LONG $0x01c68348 // add    rsi, 1
 	LONG $0xffc78348 // add    rdi, -1
@@ -4346,16 +4346,16 @@ LBB1_511:
 
 LBB1_512:
 	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
 	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
 	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
 	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -4393,7 +4393,7 @@ LBB1_517:
 
 LBB1_518:
 	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
 	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
@@ -4405,16 +4405,16 @@ LBB1_519:
 
 LBB1_520:
 	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
 	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
 	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
 	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
 	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
 	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
 	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
 	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -4570,7 +4570,7 @@ LBB1_541:
 
 LBB1_542:
 	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
 	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
@@ -4582,16 +4582,16 @@ LBB1_543:
 
 LBB1_544:
 	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
 	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
 	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
 	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -4625,7 +4625,7 @@ LBB1_549:
 
 LBB1_550:
 	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	WORD $0xc729                 // sub    edi, eax
 	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc18348             // add    rcx, -1
@@ -4637,16 +4637,16 @@ LBB1_551:
 
 LBB1_552:
 	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	WORD $0xc129                   // sub    ecx, eax
 	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
 	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	WORD $0xc129                   // sub    ecx, eax
 	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
 	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	WORD $0xc129                   // sub    ecx, eax
 	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
 	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	WORD $0xc129                   // sub    ecx, eax
 	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
@@ -4680,7 +4680,7 @@ LBB1_557:
 
 LBB1_558:
 	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	WORD $0xc729                 // sub    edi, eax
 	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc18348             // add    rcx, -1
@@ -4692,16 +4692,16 @@ LBB1_559:
 
 LBB1_560:
 	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	WORD $0xc129                   // sub    ecx, eax
 	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
 	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	WORD $0xc129                   // sub    ecx, eax
 	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
 	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	WORD $0xc129                   // sub    ecx, eax
 	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
 	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	WORD $0xc129                   // sub    ecx, eax
 	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
@@ -4955,7 +4955,7 @@ LBB1_597:
 
 LBB1_598:
 	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0xc729                 // sub    edi, eax
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
 	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc18348             // add    rcx, -1
@@ -4967,16 +4967,16 @@ LBB1_599:
 
 LBB1_600:
 	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
 	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
 	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
 	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
 	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
 	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
 	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
 	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
@@ -5010,7 +5010,7 @@ LBB1_605:
 
 LBB1_606:
 	LONG $0x723cb70f             // movzx    edi, word [rdx + 2*rsi]
-	WORD $0xc729                 // sub    edi, eax
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
 	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc18348             // add    rcx, -1
@@ -5022,16 +5022,16 @@ LBB1_607:
 
 LBB1_608:
 	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
 	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
 	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
 	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
 	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
 	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
 	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
 	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
@@ -5065,7 +5065,7 @@ LBB1_613:
 
 LBB1_614:
 	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
 	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
@@ -5077,16 +5077,16 @@ LBB1_615:
 
 LBB1_616:
 	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
 	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
 	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
 	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
 	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
 	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
 	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
 	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -5119,7 +5119,8 @@ LBB1_621:
 	JE   LBB1_623
 
 LBB1_622:
-	LONG $0x0c58fac5; BYTE $0x8a   // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
+	LONG $0x0c10fac5; BYTE $0x8a   // vmovss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85cf2c5               // vsubss    xmm1, xmm1, xmm0
 	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
 	LONG $0x01c18348               // add    rcx, 1
 	LONG $0xffc78348               // add    rdi, -1
@@ -5130,13 +5131,17 @@ LBB1_623:
 	JB   LBB1_737
 
 LBB1_624:
-	LONG $0x0c58fac5; BYTE $0x8a               // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
+	LONG $0x0c10fac5; BYTE $0x8a               // vmovss    xmm1, dword [rdx + 4*rcx]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
 	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c58fac5; WORD $0x048a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 4]
+	LONG $0x4c10fac5; WORD $0x048a             // vmovss    xmm1, dword [rdx + 4*rcx + 4]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
 	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c58fac5; WORD $0x088a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 8]
+	LONG $0x4c10fac5; WORD $0x088a             // vmovss    xmm1, dword [rdx + 4*rcx + 8]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
 	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c58fac5; WORD $0x0c8a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 12]
+	LONG $0x4c10fac5; WORD $0x0c8a             // vmovss    xmm1, dword [rdx + 4*rcx + 12]
+	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
 	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
 	LONG $0x04c18348                           // add    rcx, 4
 	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
@@ -5385,7 +5390,7 @@ LBB1_661:
 
 LBB1_662:
 	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
 	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
@@ -5397,16 +5402,16 @@ LBB1_663:
 
 LBB1_664:
 	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
 	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
 	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
 	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -5439,8 +5444,7 @@ LBB1_669:
 	JE   LBB1_671
 
 LBB1_670:
-	LONG $0x0c10fac5; BYTE $0x8a   // vmovss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85cf2c5               // vsubss    xmm1, xmm1, xmm0
+	LONG $0x0c58fac5; BYTE $0x8a   // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
 	LONG $0x117ac1c4; WORD $0x880c // vmovss    dword [r8 + 4*rcx], xmm1
 	LONG $0x01c18348               // add    rcx, 1
 	LONG $0xffc78348               // add    rdi, -1
@@ -5451,17 +5455,13 @@ LBB1_671:
 	JB   LBB1_737
 
 LBB1_672:
-	LONG $0x0c10fac5; BYTE $0x8a               // vmovss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x0c58fac5; BYTE $0x8a               // vaddss    xmm1, xmm0, dword [rdx + 4*rcx]
 	LONG $0x117ac1c4; WORD $0x880c             // vmovss    dword [r8 + 4*rcx], xmm1
-	LONG $0x4c10fac5; WORD $0x048a             // vmovss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x4c58fac5; WORD $0x048a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 4]
 	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x04 // vmovss    dword [r8 + 4*rcx + 4], xmm1
-	LONG $0x4c10fac5; WORD $0x088a             // vmovss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x4c58fac5; WORD $0x088a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 8]
 	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x08 // vmovss    dword [r8 + 4*rcx + 8], xmm1
-	LONG $0x4c10fac5; WORD $0x0c8a             // vmovss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc85cf2c5                           // vsubss    xmm1, xmm1, xmm0
+	LONG $0x4c58fac5; WORD $0x0c8a             // vaddss    xmm1, xmm0, dword [rdx + 4*rcx + 12]
 	LONG $0x117ac1c4; WORD $0x884c; BYTE $0x0c // vmovss    dword [r8 + 4*rcx + 12], xmm1
 	LONG $0x04c18348                           // add    rcx, 4
 	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
@@ -5495,7 +5495,7 @@ LBB1_677:
 
 LBB1_678:
 	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
+	WORD $0xc128     // sub    cl, al
 	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
 	LONG $0x01c68348 // add    rsi, 1
 	LONG $0xffc78348 // add    rdi, -1
@@ -5507,16 +5507,16 @@ LBB1_679:
 
 LBB1_680:
 	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
+	WORD $0xc128                 // sub    cl, al
 	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
 	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
+	WORD $0xc128                 // sub    cl, al
 	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
 	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
+	WORD $0xc128                 // sub    cl, al
 	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
 	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
+	WORD $0xc128                 // sub    cl, al
 	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -5660,7 +5660,7 @@ LBB1_701:
 
 LBB1_702:
 	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
+	WORD $0xc100     // add    cl, al
 	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
 	LONG $0x01c68348 // add    rsi, 1
 	LONG $0xffc78348 // add    rdi, -1
@@ -5672,16 +5672,16 @@ LBB1_703:
 
 LBB1_704:
 	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
 	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
 	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
 	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -5715,7 +5715,7 @@ LBB1_709:
 
 LBB1_710:
 	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
+	WORD $0xc129             // sub    ecx, eax
 	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
@@ -5727,16 +5727,16 @@ LBB1_711:
 
 LBB1_712:
 	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
 	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
 	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -5880,7 +5880,7 @@ LBB1_733:
 
 LBB1_734:
 	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
+	WORD $0xc101             // add    ecx, eax
 	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
@@ -5892,16 +5892,16 @@ LBB1_735:
 
 LBB1_736:
 	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0xc101                 // add    ecx, eax
 	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0xc101                 // add    ecx, eax
 	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
 	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0xc101                 // add    ecx, eax
 	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
 	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0xc101                 // add    ecx, eax
 	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -5925,18 +5925,26 @@ LBB1_297:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB1_299:
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
 	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
 	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
 	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
 	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
@@ -6047,26 +6055,18 @@ LBB1_306:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB1_308:
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
 	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
 	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
 	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
@@ -6086,30 +6086,38 @@ LBB1_309:
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
 	JE   LBB1_449
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
 
 LBB1_311:
-	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x6c58f5c5; WORD $0x60fa             // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080fa9458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa9c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0faa458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 224]
-	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
-	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
-	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
-	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
-	LONG $0x20c78348                           // add    rdi, 32
-	LONG $0x02c68348                           // add    rsi, 2
+	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
+	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
+	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
+	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
+	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
+	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
+	QUAD $0x000080f29410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + 8*rsi + 128]
+	QUAD $0x0000a0f29c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + 8*rsi + 160]
+	QUAD $0x0000c0f2a410fdc5; BYTE $0x00       // vmovupd    ymm4, yword [rdx + 8*rsi + 192]
+	QUAD $0x0000e0f2ac10fdc5; BYTE $0x00       // vmovupd    ymm5, yword [rdx + 8*rsi + 224]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
+	QUAD $0x0080f094117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 128], ymm2
+	QUAD $0x00a0f09c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 160], ymm3
+	QUAD $0x00c0f0a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 192], ymm4
+	QUAD $0x00e0f0ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 224], ymm5
+	LONG $0x20c68348                           // add    rsi, 32
+	LONG $0x02c78348                           // add    rdi, 2
 	JNE  LBB1_311
 	JMP  LBB1_450
 
@@ -6205,38 +6213,30 @@ LBB1_318:
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
 	JE   LBB1_473
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
 
 LBB1_320:
-	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
-	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
-	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
-	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
-	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
-	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf06c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm5
-	QUAD $0x000080f29410fdc5; BYTE $0x00       // vmovupd    ymm2, yword [rdx + 8*rsi + 128]
-	QUAD $0x0000a0f29c10fdc5; BYTE $0x00       // vmovupd    ymm3, yword [rdx + 8*rsi + 160]
-	QUAD $0x0000c0f2a410fdc5; BYTE $0x00       // vmovupd    ymm4, yword [rdx + 8*rsi + 192]
-	QUAD $0x0000e0f2ac10fdc5; BYTE $0x00       // vmovupd    ymm5, yword [rdx + 8*rsi + 224]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xe95cd5c5                           // vsubpd    ymm5, ymm5, ymm1
-	QUAD $0x0080f094117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 128], ymm2
-	QUAD $0x00a0f09c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 160], ymm3
-	QUAD $0x00c0f0a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 192], ymm4
-	QUAD $0x00e0f0ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rsi + 224], ymm5
-	LONG $0x20c68348                           // add    rsi, 32
-	LONG $0x02c78348                           // add    rdi, 2
+	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
+	LONG $0x6c58f5c5; WORD $0x60fa             // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
+	QUAD $0x000080fa9458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa9c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0faa458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rdx + 8*rdi + 224]
+	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
+	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
+	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
+	QUAD $0x00e0f8ac117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 224], ymm5
+	LONG $0x20c78348                           // add    rdi, 32
+	LONG $0x02c68348                           // add    rsi, 2
 	JNE  LBB1_320
 	JMP  LBB1_474
 
@@ -6257,18 +6257,26 @@ LBB1_321:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB1_323:
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
 	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
+	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
 	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
 	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
 	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
@@ -6379,26 +6387,18 @@ LBB1_330:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB1_332:
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
 	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
 	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
 	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
@@ -6425,18 +6425,26 @@ LBB1_333:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB1_335:
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
 	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
+	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
 	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
 	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
 	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
@@ -6547,26 +6555,18 @@ LBB1_342:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB1_344:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
 	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
 	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
 	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
@@ -6593,12 +6593,16 @@ LBB1_345:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB1_347:
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
 	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
+	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
 	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
 	LONG $0x40c78348                           // add    rdi, 64
@@ -6623,12 +6627,16 @@ LBB1_348:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB1_350:
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
 	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
+	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
+	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
 	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
 	LONG $0x40c78348                           // add    rdi, 64
@@ -6781,16 +6789,12 @@ LBB1_363:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB1_365:
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
 	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
-	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
 	LONG $0x40c78348                           // add    rdi, 64
@@ -6815,16 +6819,12 @@ LBB1_366:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB1_368:
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x207a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 32]
 	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4c6ffec5; WORD $0x407a             // vmovdqu    ymm1, yword [rdx + 2*rdi + 64]
-	LONG $0x546ffec5; WORD $0x607a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 96]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xd0f9edc5                           // vpsubw    ymm2, ymm2, ymm0
+	LONG $0x4cfdfdc5; WORD $0x407a             // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x607a             // vpaddw    ymm2, ymm0, yword [rdx + 2*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
 	LONG $0x40c78348                           // add    rdi, 64
@@ -6849,18 +6849,26 @@ LBB1_369:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB1_371:
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
 	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
+	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
 	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
 	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
 	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
@@ -6880,30 +6888,38 @@ LBB1_372:
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
 	JE   LBB1_617
-	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
-	LONG $0xfee68348             // and    rsi, -2
-	WORD $0xf748; BYTE $0xde     // neg    rsi
-	WORD $0xff31                 // xor    edi, edi
+	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
+	LONG $0xfee78348             // and    rdi, -2
+	WORD $0xf748; BYTE $0xdf     // neg    rdi
+	WORD $0xf631                 // xor    esi, esi
 
 LBB1_374:
-	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x6c58f4c5; WORD $0x60ba             // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080ba9458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba9c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0baa458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 224]
-	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
-	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
-	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
-	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
-	LONG $0x40c78348                           // add    rdi, 64
-	LONG $0x02c68348                           // add    rsi, 2
+	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
+	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
+	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
+	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
+	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
+	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm5
+	QUAD $0x000080b29410fcc5; BYTE $0x00       // vmovups    ymm2, yword [rdx + 4*rsi + 128]
+	QUAD $0x0000a0b29c10fcc5; BYTE $0x00       // vmovups    ymm3, yword [rdx + 4*rsi + 160]
+	QUAD $0x0000c0b2a410fcc5; BYTE $0x00       // vmovups    ymm4, yword [rdx + 4*rsi + 192]
+	QUAD $0x0000e0b2ac10fcc5; BYTE $0x00       // vmovups    ymm5, yword [rdx + 4*rsi + 224]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
+	QUAD $0x0080b094117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 128], ymm2
+	QUAD $0x00a0b09c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 160], ymm3
+	QUAD $0x00c0b0a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 192], ymm4
+	QUAD $0x00e0b0ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 224], ymm5
+	LONG $0x40c68348                           // add    rsi, 64
+	LONG $0x02c78348                           // add    rdi, 2
 	JNE  LBB1_374
 	JMP  LBB1_618
 
@@ -7090,26 +7106,18 @@ LBB1_387:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB1_389:
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60fa             // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080fa8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 8*rdi + 128]
-	QUAD $0x0000a0fa946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 8*rdi + 160]
-	QUAD $0x0000c0fa9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 8*rdi + 192]
-	QUAD $0x0000e0faa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 8*rdi + 224]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xe0fbddc5                           // vpsubq    ymm4, ymm4, ymm0
+	QUAD $0x000080fa8cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi + 128]
+	QUAD $0x0000a0fa94d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 160]
+	QUAD $0x0000c0fa9cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 192]
+	QUAD $0x0000e0faa4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rdx + 8*rdi + 224]
 	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
 	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
 	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
@@ -7129,38 +7137,30 @@ LBB1_390:
 	LONG $0x01c18349             // add    r9, 1
 	WORD $0x8548; BYTE $0xf6     // test    rsi, rsi
 	JE   LBB1_665
-	WORD $0x894c; BYTE $0xcf     // mov    rdi, r9
-	LONG $0xfee78348             // and    rdi, -2
-	WORD $0xf748; BYTE $0xdf     // neg    rdi
-	WORD $0xf631                 // xor    esi, esi
+	WORD $0x894c; BYTE $0xce     // mov    rsi, r9
+	LONG $0xfee68348             // and    rsi, -2
+	WORD $0xf748; BYTE $0xde     // neg    rsi
+	WORD $0xff31                 // xor    edi, edi
 
 LBB1_392:
-	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
-	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
-	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
-	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
-	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
-	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb06c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm5
-	QUAD $0x000080b29410fcc5; BYTE $0x00       // vmovups    ymm2, yword [rdx + 4*rsi + 128]
-	QUAD $0x0000a0b29c10fcc5; BYTE $0x00       // vmovups    ymm3, yword [rdx + 4*rsi + 160]
-	QUAD $0x0000c0b2a410fcc5; BYTE $0x00       // vmovups    ymm4, yword [rdx + 4*rsi + 192]
-	QUAD $0x0000e0b2ac10fcc5; BYTE $0x00       // vmovups    ymm5, yword [rdx + 4*rsi + 224]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xe95cd4c5                           // vsubps    ymm5, ymm5, ymm1
-	QUAD $0x0080b094117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 128], ymm2
-	QUAD $0x00a0b09c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 160], ymm3
-	QUAD $0x00c0b0a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 192], ymm4
-	QUAD $0x00e0b0ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rsi + 224], ymm5
-	LONG $0x40c68348                           // add    rsi, 64
-	LONG $0x02c78348                           // add    rdi, 2
+	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
+	LONG $0x6c58f4c5; WORD $0x60ba             // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
+	QUAD $0x000080ba9458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba9c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0baa458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rdx + 4*rdi + 224]
+	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
+	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
+	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
+	QUAD $0x00e0b8ac117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 224], ymm5
+	LONG $0x40c78348                           // add    rdi, 64
+	LONG $0x02c68348                           // add    rsi, 2
 	JNE  LBB1_392
 	JMP  LBB1_666
 
@@ -7181,18 +7181,26 @@ LBB1_393:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB1_395:
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
 	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
+	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
 	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
 	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
 	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
@@ -7303,26 +7311,18 @@ LBB1_402:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB1_404:
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x603a             // vpaddb    ymm4, ymm0, yword [rdx + rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x0000803a8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + rdi + 128]
-	QUAD $0x0000a03a946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + rdi + 160]
-	QUAD $0x0000c03a9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + rdi + 192]
-	QUAD $0x0000e03aa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + rdi + 224]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xe0f8ddc5                           // vpsubb    ymm4, ymm4, ymm0
+	QUAD $0x0000803a8cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rdx + rdi + 128]
+	QUAD $0x0000a03a94fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rdx + rdi + 160]
+	QUAD $0x0000c03a9cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rdx + rdi + 192]
+	QUAD $0x0000e03aa4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rdx + rdi + 224]
 	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
 	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
 	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
@@ -7349,18 +7349,26 @@ LBB1_405:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB1_407:
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
 	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
+	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
 	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
 	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
 	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
@@ -7471,26 +7479,18 @@ LBB1_414:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB1_416:
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60ba             // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080ba8c6ffec5; BYTE $0x00       // vmovdqu    ymm1, yword [rdx + 4*rdi + 128]
-	QUAD $0x0000a0ba946ffec5; BYTE $0x00       // vmovdqu    ymm2, yword [rdx + 4*rdi + 160]
-	QUAD $0x0000c0ba9c6ffec5; BYTE $0x00       // vmovdqu    ymm3, yword [rdx + 4*rdi + 192]
-	QUAD $0x0000e0baa46ffec5; BYTE $0x00       // vmovdqu    ymm4, yword [rdx + 4*rdi + 224]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xe0faddc5                           // vpsubd    ymm4, ymm4, ymm0
+	QUAD $0x000080ba8cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi + 128]
+	QUAD $0x0000a0ba94fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 160]
+	QUAD $0x0000c0ba9cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 192]
+	QUAD $0x0000e0baa4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rdx + 4*rdi + 224]
 	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
 	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
 	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
@@ -7506,10 +7506,14 @@ LBB1_417:
 LBB1_418:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_420
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
 	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
@@ -7570,14 +7574,10 @@ LBB1_441:
 LBB1_442:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_444
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
@@ -7589,19 +7589,23 @@ LBB1_444:
 	JMP  LBB1_445
 
 LBB1_449:
-	WORD $0xff31 // xor    edi, edi
+	WORD $0xf631 // xor    esi, esi
 
 LBB1_450:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_452
-	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
-	LONG $0x4c58f5c5; WORD $0x60fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 96]
-	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
-	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
+	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
+	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
+	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
+	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
+	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
+	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
+	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
+	LONG $0xc95cd5c5                           // vsubpd    ymm1, ymm5, ymm1
+	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
+	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
 
 LBB1_452:
 	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
@@ -7653,23 +7657,19 @@ LBB1_468:
 	JMP  LBB1_469
 
 LBB1_473:
-	WORD $0xf631 // xor    esi, esi
+	WORD $0xff31 // xor    edi, edi
 
 LBB1_474:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_476
-	LONG $0x1410fdc5; BYTE $0xf2               // vmovupd    ymm2, yword [rdx + 8*rsi]
-	LONG $0x5c10fdc5; WORD $0x20f2             // vmovupd    ymm3, yword [rdx + 8*rsi + 32]
-	LONG $0x6410fdc5; WORD $0x40f2             // vmovupd    ymm4, yword [rdx + 8*rsi + 64]
-	LONG $0x6c10fdc5; WORD $0x60f2             // vmovupd    ymm5, yword [rdx + 8*rsi + 96]
-	LONG $0xd15cedc5                           // vsubpd    ymm2, ymm2, ymm1
-	LONG $0xd95ce5c5                           // vsubpd    ymm3, ymm3, ymm1
-	LONG $0xe15cddc5                           // vsubpd    ymm4, ymm4, ymm1
-	LONG $0xc95cd5c5                           // vsubpd    ymm1, ymm5, ymm1
-	LONG $0x117dc1c4; WORD $0xf014             // vmovupd    yword [r8 + 8*rsi], ymm2
-	LONG $0x117dc1c4; WORD $0xf05c; BYTE $0x20 // vmovupd    yword [r8 + 8*rsi + 32], ymm3
-	LONG $0x117dc1c4; WORD $0xf064; BYTE $0x40 // vmovupd    yword [r8 + 8*rsi + 64], ymm4
-	LONG $0x117dc1c4; WORD $0xf04c; BYTE $0x60 // vmovupd    yword [r8 + 8*rsi + 96], ymm1
+	LONG $0x1458f5c5; BYTE $0xfa               // vaddpd    ymm2, ymm1, yword [rdx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20fa             // vaddpd    ymm3, ymm1, yword [rdx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40fa             // vaddpd    ymm4, ymm1, yword [rdx + 8*rdi + 64]
+	LONG $0x4c58f5c5; WORD $0x60fa             // vaddpd    ymm1, ymm1, yword [rdx + 8*rdi + 96]
+	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
+	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
+	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
+	LONG $0x117dc1c4; WORD $0xf84c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm1
 
 LBB1_476:
 	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
@@ -7682,10 +7682,14 @@ LBB1_481:
 LBB1_482:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_484
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
 	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
@@ -7746,14 +7750,10 @@ LBB1_505:
 LBB1_506:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_508
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
@@ -7770,10 +7770,14 @@ LBB1_513:
 LBB1_514:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_516
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
 	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
@@ -7834,14 +7838,10 @@ LBB1_537:
 LBB1_538:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_540
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
@@ -7858,8 +7858,10 @@ LBB1_545:
 LBB1_546:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_548
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
 	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
@@ -7874,8 +7876,10 @@ LBB1_553:
 LBB1_554:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_556
-	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
+	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
+	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
+	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
+	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
 	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
@@ -7958,10 +7962,8 @@ LBB1_593:
 LBB1_594:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_596
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
 	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
@@ -7976,10 +7978,8 @@ LBB1_601:
 LBB1_602:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_604
-	LONG $0x0c6ffec5; BYTE $0x7a               // vmovdqu    ymm1, yword [rdx + 2*rdi]
-	LONG $0x546ffec5; WORD $0x207a             // vmovdqu    ymm2, yword [rdx + 2*rdi + 32]
-	LONG $0xc8f9f5c5                           // vpsubw    ymm1, ymm1, ymm0
-	LONG $0xc0f9edc5                           // vpsubw    ymm0, ymm2, ymm0
+	LONG $0x0cfdfdc5; BYTE $0x7a               // vpaddw    ymm1, ymm0, yword [rdx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x207a             // vpaddw    ymm0, ymm0, yword [rdx + 2*rdi + 32]
 	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
@@ -7994,10 +7994,14 @@ LBB1_609:
 LBB1_610:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_612
-	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
+	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
+	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
+	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
+	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
+	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
+	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
 	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
@@ -8009,19 +8013,23 @@ LBB1_612:
 	JMP  LBB1_613
 
 LBB1_617:
-	WORD $0xff31 // xor    edi, edi
+	WORD $0xf631 // xor    esi, esi
 
 LBB1_618:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_620
-	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
-	LONG $0x4c58f4c5; WORD $0x60ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 96]
-	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
-	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
+	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
+	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
+	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
+	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
+	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
+	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
+	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
+	LONG $0xc95cd4c5                           // vsubps    ymm1, ymm5, ymm1
+	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
+	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
 
 LBB1_620:
 	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
@@ -8122,14 +8130,10 @@ LBB1_657:
 LBB1_658:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_660
-	LONG $0x0c6ffec5; BYTE $0xfa               // vmovdqu    ymm1, yword [rdx + 8*rdi]
-	LONG $0x546ffec5; WORD $0x20fa             // vmovdqu    ymm2, yword [rdx + 8*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40fa             // vmovdqu    ymm3, yword [rdx + 8*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60fa             // vmovdqu    ymm4, yword [rdx + 8*rdi + 96]
-	LONG $0xc8fbf5c5                           // vpsubq    ymm1, ymm1, ymm0
-	LONG $0xd0fbedc5                           // vpsubq    ymm2, ymm2, ymm0
-	LONG $0xd8fbe5c5                           // vpsubq    ymm3, ymm3, ymm0
-	LONG $0xc0fbddc5                           // vpsubq    ymm0, ymm4, ymm0
+	LONG $0x0cd4fdc5; BYTE $0xfa               // vpaddq    ymm1, ymm0, yword [rdx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20fa             // vpaddq    ymm2, ymm0, yword [rdx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40fa             // vpaddq    ymm3, ymm0, yword [rdx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60fa             // vpaddq    ymm0, ymm0, yword [rdx + 8*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
@@ -8141,23 +8145,19 @@ LBB1_660:
 	JMP  LBB1_661
 
 LBB1_665:
-	WORD $0xf631 // xor    esi, esi
+	WORD $0xff31 // xor    edi, edi
 
 LBB1_666:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_668
-	LONG $0x1410fcc5; BYTE $0xb2               // vmovups    ymm2, yword [rdx + 4*rsi]
-	LONG $0x5c10fcc5; WORD $0x20b2             // vmovups    ymm3, yword [rdx + 4*rsi + 32]
-	LONG $0x6410fcc5; WORD $0x40b2             // vmovups    ymm4, yword [rdx + 4*rsi + 64]
-	LONG $0x6c10fcc5; WORD $0x60b2             // vmovups    ymm5, yword [rdx + 4*rsi + 96]
-	LONG $0xd15cecc5                           // vsubps    ymm2, ymm2, ymm1
-	LONG $0xd95ce4c5                           // vsubps    ymm3, ymm3, ymm1
-	LONG $0xe15cdcc5                           // vsubps    ymm4, ymm4, ymm1
-	LONG $0xc95cd4c5                           // vsubps    ymm1, ymm5, ymm1
-	LONG $0x117cc1c4; WORD $0xb014             // vmovups    yword [r8 + 4*rsi], ymm2
-	LONG $0x117cc1c4; WORD $0xb05c; BYTE $0x20 // vmovups    yword [r8 + 4*rsi + 32], ymm3
-	LONG $0x117cc1c4; WORD $0xb064; BYTE $0x40 // vmovups    yword [r8 + 4*rsi + 64], ymm4
-	LONG $0x117cc1c4; WORD $0xb04c; BYTE $0x60 // vmovups    yword [r8 + 4*rsi + 96], ymm1
+	LONG $0x1458f4c5; BYTE $0xba               // vaddps    ymm2, ymm1, yword [rdx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20ba             // vaddps    ymm3, ymm1, yword [rdx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40ba             // vaddps    ymm4, ymm1, yword [rdx + 4*rdi + 64]
+	LONG $0x4c58f4c5; WORD $0x60ba             // vaddps    ymm1, ymm1, yword [rdx + 4*rdi + 96]
+	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
+	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
+	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
+	LONG $0x117cc1c4; WORD $0xb84c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm1
 
 LBB1_668:
 	WORD $0x3948; BYTE $0xc1 // cmp    rcx, rax
@@ -8170,10 +8170,14 @@ LBB1_673:
 LBB1_674:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_676
-	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
-	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
+	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
+	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
+	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
+	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
+	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
+	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
+	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
 	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
@@ -8230,18 +8234,14 @@ LBB1_692:
 
 LBB1_697:
 	WORD $0xff31 // xor    edi, edi
-
-LBB1_698:
-	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB1_700
-	LONG $0x0c6ffec5; BYTE $0x3a               // vmovdqu    ymm1, yword [rdx + rdi]
-	LONG $0x546ffec5; WORD $0x203a             // vmovdqu    ymm2, yword [rdx + rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x403a             // vmovdqu    ymm3, yword [rdx + rdi + 64]
-	LONG $0x646ffec5; WORD $0x603a             // vmovdqu    ymm4, yword [rdx + rdi + 96]
-	LONG $0xc8f8f5c5                           // vpsubb    ymm1, ymm1, ymm0
-	LONG $0xd0f8edc5                           // vpsubb    ymm2, ymm2, ymm0
-	LONG $0xd8f8e5c5                           // vpsubb    ymm3, ymm3, ymm0
-	LONG $0xc0f8ddc5                           // vpsubb    ymm0, ymm4, ymm0
+
+LBB1_698:
+	LONG $0x01c1f641                           // test    r9b, 1
+	JE   LBB1_700
+	LONG $0x0cfcfdc5; BYTE $0x3a               // vpaddb    ymm1, ymm0, yword [rdx + rdi]
+	LONG $0x54fcfdc5; WORD $0x203a             // vpaddb    ymm2, ymm0, yword [rdx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x403a             // vpaddb    ymm3, ymm0, yword [rdx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x603a             // vpaddb    ymm0, ymm0, yword [rdx + rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
@@ -8258,10 +8258,14 @@ LBB1_705:
 LBB1_706:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_708
-	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
+	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
+	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
+	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
+	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
+	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
+	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
+	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
+	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
 	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
@@ -8322,14 +8326,10 @@ LBB1_729:
 LBB1_730:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB1_732
-	LONG $0x0c6ffec5; BYTE $0xba               // vmovdqu    ymm1, yword [rdx + 4*rdi]
-	LONG $0x546ffec5; WORD $0x20ba             // vmovdqu    ymm2, yword [rdx + 4*rdi + 32]
-	LONG $0x5c6ffec5; WORD $0x40ba             // vmovdqu    ymm3, yword [rdx + 4*rdi + 64]
-	LONG $0x646ffec5; WORD $0x60ba             // vmovdqu    ymm4, yword [rdx + 4*rdi + 96]
-	LONG $0xc8faf5c5                           // vpsubd    ymm1, ymm1, ymm0
-	LONG $0xd0faedc5                           // vpsubd    ymm2, ymm2, ymm0
-	LONG $0xd8fae5c5                           // vpsubd    ymm3, ymm3, ymm0
-	LONG $0xc0faddc5                           // vpsubd    ymm0, ymm4, ymm0
+	LONG $0x0cfefdc5; BYTE $0xba               // vpaddd    ymm1, ymm0, yword [rdx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20ba             // vpaddd    ymm2, ymm0, yword [rdx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40ba             // vpaddd    ymm3, ymm0, yword [rdx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60ba             // vpaddd    ymm0, ymm0, yword [rdx + 4*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
@@ -8370,7 +8370,7 @@ TEXT ·_arithmetic_scalar_arr_avx2(SB), $0-48
 	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
 	JB   LBB2_10
@@ -8385,38 +8385,38 @@ LBB2_10:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_421:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_423
 
 LBB2_422:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_422
 
 LBB2_423:
-	LONG $0x03f98349 // cmp    r9, 3
+	LONG $0x03fa8348 // cmp    rdx, 3
 	JB   LBB2_737
 
 LBB2_424:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_424
@@ -8569,7 +8569,7 @@ LBB2_29:
 	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x028b             // mov    eax, dword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
 	JB   LBB2_36
@@ -8584,38 +8584,38 @@ LBB2_36:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_445:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_447
 
 LBB2_446:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_446
 
 LBB2_447:
-	LONG $0x03fa8348 // cmp    rdx, 3
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB2_737
 
 LBB2_448:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_448
@@ -8655,7 +8655,7 @@ LBB2_453:
 	JE   LBB2_455
 
 LBB2_454:
-	LONG $0x0c58fbc5; BYTE $0xd1   // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x0c5cfbc5; BYTE $0xd1   // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
 	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
 	LONG $0x01c28348               // add    rdx, 1
 	LONG $0xffc78348               // add    rdi, -1
@@ -8666,13 +8666,13 @@ LBB2_455:
 	JB   LBB2_737
 
 LBB2_456:
-	LONG $0x0c58fbc5; BYTE $0xd1               // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x0c5cfbc5; BYTE $0xd1               // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
 	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c58fbc5; WORD $0x08d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
+	LONG $0x4c5cfbc5; WORD $0x08d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
 	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c58fbc5; WORD $0x10d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
+	LONG $0x4c5cfbc5; WORD $0x10d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
 	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c58fbc5; WORD $0x18d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
+	LONG $0x4c5cfbc5; WORD $0x18d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
 	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
 	LONG $0x04c28348                           // add    rdx, 4
 	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
@@ -8829,7 +8829,7 @@ LBB2_477:
 	JE   LBB2_479
 
 LBB2_478:
-	LONG $0x0c5cfbc5; BYTE $0xd1   // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x0c58fbc5; BYTE $0xd1   // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
 	LONG $0x117bc1c4; WORD $0xd00c // vmovsd    qword [r8 + 8*rdx], xmm1
 	LONG $0x01c28348               // add    rdx, 1
 	LONG $0xffc78348               // add    rdi, -1
@@ -8840,13 +8840,13 @@ LBB2_479:
 	JB   LBB2_737
 
 LBB2_480:
-	LONG $0x0c5cfbc5; BYTE $0xd1               // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx]
+	LONG $0x0c58fbc5; BYTE $0xd1               // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx]
 	LONG $0x117bc1c4; WORD $0xd00c             // vmovsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c5cfbc5; WORD $0x08d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
+	LONG $0x4c58fbc5; WORD $0x08d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 8]
 	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x08 // vmovsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c5cfbc5; WORD $0x10d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
+	LONG $0x4c58fbc5; WORD $0x10d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 16]
 	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x10 // vmovsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c5cfbc5; WORD $0x18d1             // vsubsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
+	LONG $0x4c58fbc5; WORD $0x18d1             // vaddsd    xmm1, xmm0, qword [rcx + 8*rdx + 24]
 	LONG $0x117bc1c4; WORD $0xd04c; BYTE $0x18 // vmovsd    qword [r8 + 8*rdx + 24], xmm1
 	LONG $0x04c28348                           // add    rdx, 4
 	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
@@ -8883,11 +8883,11 @@ LBB2_485:
 	JE   LBB2_487
 
 LBB2_486:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
+	WORD $0xc289             // mov    edx, eax
+	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841         // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_486
 
 LBB2_487:
@@ -8895,17 +8895,17 @@ LBB2_487:
 	JB   LBB2_737
 
 LBB2_488:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
 	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
 	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
 	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
 	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -9060,11 +9060,11 @@ LBB2_509:
 	JE   LBB2_511
 
 LBB2_510:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841         // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
 	JNE  LBB2_510
 
 LBB2_511:
@@ -9072,17 +9072,17 @@ LBB2_511:
 	JB   LBB2_737
 
 LBB2_512:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
 	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
 	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
 	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
 	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -9096,7 +9096,7 @@ LBB2_85:
 	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
 	JB   LBB2_89
@@ -9111,38 +9111,38 @@ LBB2_89:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_517:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_519
 
 LBB2_518:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_518
 
 LBB2_519:
-	LONG $0x03f98349 // cmp    r9, 3
+	LONG $0x03fa8348 // cmp    rdx, 3
 	JB   LBB2_737
 
 LBB2_520:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_520
@@ -9273,7 +9273,7 @@ LBB2_100:
 	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
 	JB   LBB2_104
@@ -9288,38 +9288,38 @@ LBB2_104:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_541:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_543
 
 LBB2_542:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_542
 
 LBB2_543:
-	LONG $0x03fa8348 // cmp    rdx, 3
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB2_737
 
 LBB2_544:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_544
@@ -9351,8 +9351,8 @@ LBB2_549:
 	JE   LBB2_551
 
 LBB2_550:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	WORD $0xc789                 // mov    edi, eax
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
 	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc28348             // add    rdx, -1
@@ -9363,17 +9363,17 @@ LBB2_551:
 	JB   LBB2_737
 
 LBB2_552:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
 	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
 	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
 	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
 	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
@@ -9406,8 +9406,8 @@ LBB2_557:
 	JE   LBB2_559
 
 LBB2_558:
-	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc7     // add    di, ax
+	WORD $0xc789                 // mov    edi, eax
+	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
 	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc28348             // add    rdx, -1
@@ -9418,17 +9418,17 @@ LBB2_559:
 	JB   LBB2_737
 
 LBB2_560:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
 	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
 	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
 	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
 	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
@@ -9681,8 +9681,8 @@ LBB2_597:
 	JE   LBB2_599
 
 LBB2_598:
-	WORD $0xc789                 // mov    edi, eax
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
 	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc28348             // add    rdx, -1
@@ -9693,17 +9693,17 @@ LBB2_599:
 	JB   LBB2_737
 
 LBB2_600:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
 	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
 	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
 	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
 	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
@@ -9736,8 +9736,8 @@ LBB2_605:
 	JE   LBB2_607
 
 LBB2_606:
-	WORD $0xc789                 // mov    edi, eax
-	LONG $0x713c2b66             // sub    di, word [rcx + 2*rsi]
+	LONG $0x713cb70f             // movzx    edi, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc7     // add    di, ax
 	LONG $0x3c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], di
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc28348             // add    rdx, -1
@@ -9748,17 +9748,17 @@ LBB2_607:
 	JB   LBB2_737
 
 LBB2_608:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
 	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
 	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
 	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
 	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
@@ -9768,7 +9768,7 @@ LBB2_608:
 LBB2_129:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
 	JB   LBB2_131
@@ -9783,38 +9783,38 @@ LBB2_131:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_613:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_615
 
 LBB2_614:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_614
 
 LBB2_615:
-	LONG $0x03f98349 // cmp    r9, 3
+	LONG $0x03fa8348 // cmp    rdx, 3
 	JB   LBB2_737
 
 LBB2_616:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_616
@@ -9846,7 +9846,7 @@ LBB2_621:
 	JE   LBB2_623
 
 LBB2_622:
-	LONG $0x0c58fac5; BYTE $0x91   // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x0c5cfac5; BYTE $0x91   // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
 	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
 	LONG $0x01c28348               // add    rdx, 1
 	LONG $0xffc78348               // add    rdi, -1
@@ -9857,13 +9857,13 @@ LBB2_623:
 	JB   LBB2_737
 
 LBB2_624:
-	LONG $0x0c58fac5; BYTE $0x91               // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x0c5cfac5; BYTE $0x91               // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
 	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c58fac5; WORD $0x0491             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
+	LONG $0x4c5cfac5; WORD $0x0491             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
 	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c58fac5; WORD $0x0891             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
+	LONG $0x4c5cfac5; WORD $0x0891             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
 	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c58fac5; WORD $0x0c91             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
+	LONG $0x4c5cfac5; WORD $0x0c91             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
 	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
 	LONG $0x04c28348                           // add    rdx, 4
 	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
@@ -10083,7 +10083,7 @@ LBB2_656:
 LBB2_147:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
 	JB   LBB2_149
@@ -10098,38 +10098,38 @@ LBB2_149:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_661:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_663
 
 LBB2_662:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_662
 
 LBB2_663:
-	LONG $0x03fa8348 // cmp    rdx, 3
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB2_737
 
 LBB2_664:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_664
@@ -10161,7 +10161,7 @@ LBB2_669:
 	JE   LBB2_671
 
 LBB2_670:
-	LONG $0x0c5cfac5; BYTE $0x91   // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x0c58fac5; BYTE $0x91   // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
 	LONG $0x117ac1c4; WORD $0x900c // vmovss    dword [r8 + 4*rdx], xmm1
 	LONG $0x01c28348               // add    rdx, 1
 	LONG $0xffc78348               // add    rdi, -1
@@ -10172,13 +10172,13 @@ LBB2_671:
 	JB   LBB2_737
 
 LBB2_672:
-	LONG $0x0c5cfac5; BYTE $0x91               // vsubss    xmm1, xmm0, dword [rcx + 4*rdx]
+	LONG $0x0c58fac5; BYTE $0x91               // vaddss    xmm1, xmm0, dword [rcx + 4*rdx]
 	LONG $0x117ac1c4; WORD $0x900c             // vmovss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c5cfac5; WORD $0x0491             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
+	LONG $0x4c58fac5; WORD $0x0491             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 4]
 	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x04 // vmovss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c5cfac5; WORD $0x0891             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
+	LONG $0x4c58fac5; WORD $0x0891             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 8]
 	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x08 // vmovss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c5cfac5; WORD $0x0c91             // vsubss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
+	LONG $0x4c58fac5; WORD $0x0c91             // vaddss    xmm1, xmm0, dword [rcx + 4*rdx + 12]
 	LONG $0x117ac1c4; WORD $0x904c; BYTE $0x0c // vmovss    dword [r8 + 4*rdx + 12], xmm1
 	LONG $0x04c28348                           // add    rdx, 4
 	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
@@ -10211,11 +10211,11 @@ LBB2_677:
 	JE   LBB2_679
 
 LBB2_678:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
+	WORD $0xc289             // mov    edx, eax
+	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
+	LONG $0x30148841         // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_678
 
 LBB2_679:
@@ -10223,17 +10223,17 @@ LBB2_679:
 	JB   LBB2_737
 
 LBB2_680:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
+	WORD $0xc289                 // mov    edx, eax
+	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
 	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
 	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
 	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
 	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -10376,11 +10376,11 @@ LBB2_701:
 	JE   LBB2_703
 
 LBB2_702:
-	WORD $0xc289             // mov    edx, eax
-	WORD $0x142a; BYTE $0x31 // sub    dl, byte [rcx + rsi]
-	LONG $0x30148841         // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
 	JNE  LBB2_702
 
 LBB2_703:
@@ -10388,17 +10388,17 @@ LBB2_703:
 	JB   LBB2_737
 
 LBB2_704:
-	WORD $0xc289                 // mov    edx, eax
-	WORD $0x142a; BYTE $0x31     // sub    dl, byte [rcx + rsi]
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
 	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0131542a             // sub    dl, byte [rcx + rsi + 1]
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
 	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0231542a             // sub    dl, byte [rcx + rsi + 2]
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
 	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x0331542a             // sub    dl, byte [rcx + rsi + 3]
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
 	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -10408,7 +10408,7 @@ LBB2_704:
 LBB2_165:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
 	JB   LBB2_167
@@ -10423,38 +10423,38 @@ LBB2_167:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_709:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_711
 
 LBB2_710:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_710
 
 LBB2_711:
-	LONG $0x03f98349 // cmp    r9, 3
+	LONG $0x03fa8348 // cmp    rdx, 3
 	JB   LBB2_737
 
 LBB2_712:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_712
@@ -10573,7 +10573,7 @@ LBB2_728:
 LBB2_174:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x028b             // mov    eax, dword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
 	JB   LBB2_176
@@ -10588,38 +10588,38 @@ LBB2_176:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_733:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_735
 
 LBB2_734:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_734
 
 LBB2_735:
-	LONG $0x03fa8348 // cmp    rdx, 3
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB2_737
 
 LBB2_736:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_736
@@ -10628,7 +10628,7 @@ LBB2_736:
 LBB2_297:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
 	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
 	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
@@ -10642,18 +10642,18 @@ LBB2_297:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_299:
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
 	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
 	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
 	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
@@ -10742,7 +10742,7 @@ LBB2_305:
 LBB2_306:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
 	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
 	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
@@ -10756,18 +10756,18 @@ LBB2_306:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_308:
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
 	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
 	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
 	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
@@ -10793,18 +10793,18 @@ LBB2_309:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_311:
-	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x6c58f5c5; WORD $0x60f9             // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x6c5cf5c5; WORD $0x60f9             // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
 	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
 	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
 	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
 	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f99458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
+	QUAD $0x000080f9945cf5c5; BYTE $0x00       // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f99c5cf5c5; BYTE $0x00       // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f9a45cf5c5; BYTE $0x00       // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9ac5cf5c5; BYTE $0x00       // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
 	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
 	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
 	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
@@ -10904,18 +10904,18 @@ LBB2_318:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_320:
-	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x6c5cf5c5; WORD $0x60f9             // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x6c58f5c5; WORD $0x60f9             // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 96]
 	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
 	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
 	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
 	LONG $0x117dc1c4; WORD $0xf86c; BYTE $0x60 // vmovupd    yword [r8 + 8*rdi + 96], ymm5
-	QUAD $0x000080f9945cf5c5; BYTE $0x00       // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f99c5cf5c5; BYTE $0x00       // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f9a45cf5c5; BYTE $0x00       // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9ac5cf5c5; BYTE $0x00       // vsubpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
+	QUAD $0x000080f99458f5c5; BYTE $0x00       // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f99c58f5c5; BYTE $0x00       // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f9a458f5c5; BYTE $0x00       // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9ac58f5c5; BYTE $0x00       // vaddpd    ymm5, ymm1, yword [rcx + 8*rdi + 224]
 	QUAD $0x0080f894117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 128], ymm2
 	QUAD $0x00a0f89c117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 160], ymm3
 	QUAD $0x00c0f8a4117dc1c4; WORD $0x0000     // vmovupd    yword [r8 + 8*rdi + 192], ymm4
@@ -10942,18 +10942,18 @@ LBB2_321:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_323:
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
 	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
 	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
 	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
@@ -11056,18 +11056,18 @@ LBB2_330:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_332:
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
 	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
 	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
 	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
@@ -11080,7 +11080,7 @@ LBB2_332:
 LBB2_333:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
 	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
 	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
@@ -11094,18 +11094,18 @@ LBB2_333:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_335:
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
 	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
 	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
 	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
@@ -11194,7 +11194,7 @@ LBB2_341:
 LBB2_342:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
 	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
 	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
@@ -11208,18 +11208,18 @@ LBB2_342:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_344:
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
 	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
 	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
 	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
@@ -11246,12 +11246,12 @@ LBB2_345:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_347:
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
 	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
 	LONG $0x40c78348                           // add    rdi, 64
@@ -11276,12 +11276,12 @@ LBB2_348:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_350:
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
 	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
 	LONG $0x40c78348                           // add    rdi, 64
@@ -11426,12 +11426,12 @@ LBB2_363:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_365:
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
 	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
 	LONG $0x40c78348                           // add    rdi, 64
@@ -11456,12 +11456,12 @@ LBB2_366:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_368:
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x54f9fdc5; WORD $0x2079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x54fdfdc5; WORD $0x2079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 32]
 	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm2
-	LONG $0x4cf9fdc5; WORD $0x4079             // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
-	LONG $0x54f9fdc5; WORD $0x6079             // vpsubw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
+	LONG $0x4cfdfdc5; WORD $0x4079             // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi + 64]
+	LONG $0x54fdfdc5; WORD $0x6079             // vpaddw    ymm2, ymm0, yword [rcx + 2*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x784c; BYTE $0x40 // vmovdqu    yword [r8 + 2*rdi + 64], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7854; BYTE $0x60 // vmovdqu    yword [r8 + 2*rdi + 96], ymm2
 	LONG $0x40c78348                           // add    rdi, 64
@@ -11472,7 +11472,7 @@ LBB2_368:
 LBB2_369:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
+	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
 	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
 	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
@@ -11486,18 +11486,18 @@ LBB2_369:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_371:
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
 	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
 	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
 	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
@@ -11523,18 +11523,18 @@ LBB2_372:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_374:
-	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x6c58f4c5; WORD $0x60b9             // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x6c5cf4c5; WORD $0x60b9             // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
 	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
 	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
 	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
 	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080b99458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b99c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b9a458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9ac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
+	QUAD $0x000080b9945cf4c5; BYTE $0x00       // vsubps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b99c5cf4c5; BYTE $0x00       // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b9a45cf4c5; BYTE $0x00       // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9ac5cf4c5; BYTE $0x00       // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
 	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
 	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
 	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
@@ -11697,7 +11697,7 @@ LBB2_386:
 LBB2_387:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0     // and    esi, -16
-	LONG $0x6ef9c1c4; BYTE $0xc3 // vmovq    xmm0, r11
+	LONG $0x6ef9e1c4; BYTE $0xc0 // vmovq    xmm0, rax
 	LONG $0x597de2c4; BYTE $0xc0 // vpbroadcastq    ymm0, xmm0
 	LONG $0xf0568d48             // lea    rdx, [rsi - 16]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
@@ -11711,18 +11711,18 @@ LBB2_387:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_389:
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x64fbfdc5; WORD $0x60f9             // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x64d4fdc5; WORD $0x60f9             // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xf864; BYTE $0x60 // vmovdqu    yword [r8 + 8*rdi + 96], ymm4
-	QUAD $0x000080f98cfbfdc5; BYTE $0x00       // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
-	QUAD $0x0000a0f994fbfdc5; BYTE $0x00       // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
-	QUAD $0x0000c0f99cfbfdc5; BYTE $0x00       // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
-	QUAD $0x0000e0f9a4fbfdc5; BYTE $0x00       // vpsubq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
+	QUAD $0x000080f98cd4fdc5; BYTE $0x00       // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi + 128]
+	QUAD $0x0000a0f994d4fdc5; BYTE $0x00       // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 160]
+	QUAD $0x0000c0f99cd4fdc5; BYTE $0x00       // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 192]
+	QUAD $0x0000e0f9a4d4fdc5; BYTE $0x00       // vpaddq    ymm4, ymm0, yword [rcx + 8*rdi + 224]
 	QUAD $0x0080f88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 128], ymm1
 	QUAD $0x00a0f8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 160], ymm2
 	QUAD $0x00c0f89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 8*rdi + 192], ymm3
@@ -11748,18 +11748,18 @@ LBB2_390:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_392:
-	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x6c5cf4c5; WORD $0x60b9             // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x6c58f4c5; WORD $0x60b9             // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 96]
 	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
 	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
 	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
 	LONG $0x117cc1c4; WORD $0xb86c; BYTE $0x60 // vmovups    yword [r8 + 4*rdi + 96], ymm5
-	QUAD $0x000080b9945cf4c5; BYTE $0x00       // vsubps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b99c5cf4c5; BYTE $0x00       // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b9a45cf4c5; BYTE $0x00       // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9ac5cf4c5; BYTE $0x00       // vsubps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
+	QUAD $0x000080b99458f4c5; BYTE $0x00       // vaddps    ymm2, ymm1, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b99c58f4c5; BYTE $0x00       // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b9a458f4c5; BYTE $0x00       // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9ac58f4c5; BYTE $0x00       // vaddps    ymm5, ymm1, yword [rcx + 4*rdi + 224]
 	QUAD $0x0080b894117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 128], ymm2
 	QUAD $0x00a0b89c117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 160], ymm3
 	QUAD $0x00c0b8a4117cc1c4; WORD $0x0000     // vmovups    yword [r8 + 4*rdi + 192], ymm4
@@ -11786,18 +11786,18 @@ LBB2_393:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_395:
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
 	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
 	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
 	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
@@ -11900,18 +11900,18 @@ LBB2_402:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_404:
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x64f8fdc5; WORD $0x6039             // vpsubb    ymm4, ymm0, yword [rcx + rdi + 96]
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x64fcfdc5; WORD $0x6039             // vpaddb    ymm4, ymm0, yword [rcx + rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0x3864; BYTE $0x60 // vmovdqu    yword [r8 + rdi + 96], ymm4
-	QUAD $0x000080398cf8fdc5; BYTE $0x00       // vpsubb    ymm1, ymm0, yword [rcx + rdi + 128]
-	QUAD $0x0000a03994f8fdc5; BYTE $0x00       // vpsubb    ymm2, ymm0, yword [rcx + rdi + 160]
-	QUAD $0x0000c0399cf8fdc5; BYTE $0x00       // vpsubb    ymm3, ymm0, yword [rcx + rdi + 192]
-	QUAD $0x0000e039a4f8fdc5; BYTE $0x00       // vpsubb    ymm4, ymm0, yword [rcx + rdi + 224]
+	QUAD $0x000080398cfcfdc5; BYTE $0x00       // vpaddb    ymm1, ymm0, yword [rcx + rdi + 128]
+	QUAD $0x0000a03994fcfdc5; BYTE $0x00       // vpaddb    ymm2, ymm0, yword [rcx + rdi + 160]
+	QUAD $0x0000c0399cfcfdc5; BYTE $0x00       // vpaddb    ymm3, ymm0, yword [rcx + rdi + 192]
+	QUAD $0x0000e039a4fcfdc5; BYTE $0x00       // vpaddb    ymm4, ymm0, yword [rcx + rdi + 224]
 	QUAD $0x0080388c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 128], ymm1
 	QUAD $0x00a038947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 160], ymm2
 	QUAD $0x00c0389c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + rdi + 192], ymm3
@@ -11924,7 +11924,7 @@ LBB2_404:
 LBB2_405:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xc06ef9c5             // vmovd    xmm0, eax
+	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
 	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
 	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
@@ -11938,18 +11938,18 @@ LBB2_405:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_407:
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
 	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
 	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
 	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
@@ -12038,7 +12038,7 @@ LBB2_413:
 LBB2_414:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0x6e79c1c4; BYTE $0xc3 // vmovd    xmm0, r11d
+	LONG $0xc06ef9c5             // vmovd    xmm0, eax
 	LONG $0x587de2c4; BYTE $0xc0 // vpbroadcastd    ymm0, xmm0
 	LONG $0xe0568d48             // lea    rdx, [rsi - 32]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
@@ -12052,18 +12052,18 @@ LBB2_414:
 	WORD $0xff31                 // xor    edi, edi
 
 LBB2_416:
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x64fafdc5; WORD $0x60b9             // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x64fefdc5; WORD $0x60b9             // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
 	LONG $0x7f7ec1c4; WORD $0xb864; BYTE $0x60 // vmovdqu    yword [r8 + 4*rdi + 96], ymm4
-	QUAD $0x000080b98cfafdc5; BYTE $0x00       // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
-	QUAD $0x0000a0b994fafdc5; BYTE $0x00       // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
-	QUAD $0x0000c0b99cfafdc5; BYTE $0x00       // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
-	QUAD $0x0000e0b9a4fafdc5; BYTE $0x00       // vpsubd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
+	QUAD $0x000080b98cfefdc5; BYTE $0x00       // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi + 128]
+	QUAD $0x0000a0b994fefdc5; BYTE $0x00       // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 160]
+	QUAD $0x0000c0b99cfefdc5; BYTE $0x00       // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 192]
+	QUAD $0x0000e0b9a4fefdc5; BYTE $0x00       // vpaddd    ymm4, ymm0, yword [rcx + 4*rdi + 224]
 	QUAD $0x0080b88c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 128], ymm1
 	QUAD $0x00a0b8947f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 160], ymm2
 	QUAD $0x00c0b89c7f7ec1c4; WORD $0x0000     // vmovdqu    yword [r8 + 4*rdi + 192], ymm3
@@ -12079,10 +12079,10 @@ LBB2_417:
 LBB2_418:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_420
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
@@ -12139,10 +12139,10 @@ LBB2_441:
 LBB2_442:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_444
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
@@ -12159,10 +12159,10 @@ LBB2_449:
 LBB2_450:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_452
-	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x4c58f5c5; WORD $0x60f9             // vaddpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x4c5cf5c5; WORD $0x60f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
 	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
 	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
 	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
@@ -12219,10 +12219,10 @@ LBB2_473:
 LBB2_474:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_476
-	LONG $0x145cf5c5; BYTE $0xf9               // vsubpd    ymm2, ymm1, yword [rcx + 8*rdi]
-	LONG $0x5c5cf5c5; WORD $0x20f9             // vsubpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
-	LONG $0x645cf5c5; WORD $0x40f9             // vsubpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
-	LONG $0x4c5cf5c5; WORD $0x60f9             // vsubpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
+	LONG $0x1458f5c5; BYTE $0xf9               // vaddpd    ymm2, ymm1, yword [rcx + 8*rdi]
+	LONG $0x5c58f5c5; WORD $0x20f9             // vaddpd    ymm3, ymm1, yword [rcx + 8*rdi + 32]
+	LONG $0x6458f5c5; WORD $0x40f9             // vaddpd    ymm4, ymm1, yword [rcx + 8*rdi + 64]
+	LONG $0x4c58f5c5; WORD $0x60f9             // vaddpd    ymm1, ymm1, yword [rcx + 8*rdi + 96]
 	LONG $0x117dc1c4; WORD $0xf814             // vmovupd    yword [r8 + 8*rdi], ymm2
 	LONG $0x117dc1c4; WORD $0xf85c; BYTE $0x20 // vmovupd    yword [r8 + 8*rdi + 32], ymm3
 	LONG $0x117dc1c4; WORD $0xf864; BYTE $0x40 // vmovupd    yword [r8 + 8*rdi + 64], ymm4
@@ -12239,10 +12239,10 @@ LBB2_481:
 LBB2_482:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_484
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
@@ -12299,10 +12299,10 @@ LBB2_505:
 LBB2_506:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_508
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
@@ -12319,10 +12319,10 @@ LBB2_513:
 LBB2_514:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_516
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
@@ -12379,10 +12379,10 @@ LBB2_537:
 LBB2_538:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_540
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
@@ -12399,8 +12399,8 @@ LBB2_545:
 LBB2_546:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_548
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
 	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
@@ -12415,8 +12415,8 @@ LBB2_553:
 LBB2_554:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_556
-	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
 	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
@@ -12495,8 +12495,8 @@ LBB2_593:
 LBB2_594:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_596
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
 	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
@@ -12511,8 +12511,8 @@ LBB2_601:
 LBB2_602:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_604
-	LONG $0x0cf9fdc5; BYTE $0x79               // vpsubw    ymm1, ymm0, yword [rcx + 2*rdi]
-	LONG $0x44f9fdc5; WORD $0x2079             // vpsubw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
+	LONG $0x0cfdfdc5; BYTE $0x79               // vpaddw    ymm1, ymm0, yword [rcx + 2*rdi]
+	LONG $0x44fdfdc5; WORD $0x2079             // vpaddw    ymm0, ymm0, yword [rcx + 2*rdi + 32]
 	LONG $0x7f7ec1c4; WORD $0x780c             // vmovdqu    yword [r8 + 2*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x7844; BYTE $0x20 // vmovdqu    yword [r8 + 2*rdi + 32], ymm0
 
@@ -12527,10 +12527,10 @@ LBB2_609:
 LBB2_610:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_612
-	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
@@ -12547,10 +12547,10 @@ LBB2_617:
 LBB2_618:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_620
-	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x4c58f4c5; WORD $0x60b9             // vaddps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x4c5cf4c5; WORD $0x60b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
 	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
 	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
 	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
@@ -12647,10 +12647,10 @@ LBB2_657:
 LBB2_658:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_660
-	LONG $0x0cfbfdc5; BYTE $0xf9               // vpsubq    ymm1, ymm0, yword [rcx + 8*rdi]
-	LONG $0x54fbfdc5; WORD $0x20f9             // vpsubq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
-	LONG $0x5cfbfdc5; WORD $0x40f9             // vpsubq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
-	LONG $0x44fbfdc5; WORD $0x60f9             // vpsubq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
+	LONG $0x0cd4fdc5; BYTE $0xf9               // vpaddq    ymm1, ymm0, yword [rcx + 8*rdi]
+	LONG $0x54d4fdc5; WORD $0x20f9             // vpaddq    ymm2, ymm0, yword [rcx + 8*rdi + 32]
+	LONG $0x5cd4fdc5; WORD $0x40f9             // vpaddq    ymm3, ymm0, yword [rcx + 8*rdi + 64]
+	LONG $0x44d4fdc5; WORD $0x60f9             // vpaddq    ymm0, ymm0, yword [rcx + 8*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xf80c             // vmovdqu    yword [r8 + 8*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xf854; BYTE $0x20 // vmovdqu    yword [r8 + 8*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xf85c; BYTE $0x40 // vmovdqu    yword [r8 + 8*rdi + 64], ymm3
@@ -12667,10 +12667,10 @@ LBB2_665:
 LBB2_666:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_668
-	LONG $0x145cf4c5; BYTE $0xb9               // vsubps    ymm2, ymm1, yword [rcx + 4*rdi]
-	LONG $0x5c5cf4c5; WORD $0x20b9             // vsubps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
-	LONG $0x645cf4c5; WORD $0x40b9             // vsubps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
-	LONG $0x4c5cf4c5; WORD $0x60b9             // vsubps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
+	LONG $0x1458f4c5; BYTE $0xb9               // vaddps    ymm2, ymm1, yword [rcx + 4*rdi]
+	LONG $0x5c58f4c5; WORD $0x20b9             // vaddps    ymm3, ymm1, yword [rcx + 4*rdi + 32]
+	LONG $0x6458f4c5; WORD $0x40b9             // vaddps    ymm4, ymm1, yword [rcx + 4*rdi + 64]
+	LONG $0x4c58f4c5; WORD $0x60b9             // vaddps    ymm1, ymm1, yword [rcx + 4*rdi + 96]
 	LONG $0x117cc1c4; WORD $0xb814             // vmovups    yword [r8 + 4*rdi], ymm2
 	LONG $0x117cc1c4; WORD $0xb85c; BYTE $0x20 // vmovups    yword [r8 + 4*rdi + 32], ymm3
 	LONG $0x117cc1c4; WORD $0xb864; BYTE $0x40 // vmovups    yword [r8 + 4*rdi + 64], ymm4
@@ -12687,10 +12687,10 @@ LBB2_673:
 LBB2_674:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_676
-	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
@@ -12747,10 +12747,10 @@ LBB2_697:
 LBB2_698:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_700
-	LONG $0x0cf8fdc5; BYTE $0x39               // vpsubb    ymm1, ymm0, yword [rcx + rdi]
-	LONG $0x54f8fdc5; WORD $0x2039             // vpsubb    ymm2, ymm0, yword [rcx + rdi + 32]
-	LONG $0x5cf8fdc5; WORD $0x4039             // vpsubb    ymm3, ymm0, yword [rcx + rdi + 64]
-	LONG $0x44f8fdc5; WORD $0x6039             // vpsubb    ymm0, ymm0, yword [rcx + rdi + 96]
+	LONG $0x0cfcfdc5; BYTE $0x39               // vpaddb    ymm1, ymm0, yword [rcx + rdi]
+	LONG $0x54fcfdc5; WORD $0x2039             // vpaddb    ymm2, ymm0, yword [rcx + rdi + 32]
+	LONG $0x5cfcfdc5; WORD $0x4039             // vpaddb    ymm3, ymm0, yword [rcx + rdi + 64]
+	LONG $0x44fcfdc5; WORD $0x6039             // vpaddb    ymm0, ymm0, yword [rcx + rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0x380c             // vmovdqu    yword [r8 + rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0x3854; BYTE $0x20 // vmovdqu    yword [r8 + rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0x385c; BYTE $0x40 // vmovdqu    yword [r8 + rdi + 64], ymm3
@@ -12767,10 +12767,10 @@ LBB2_705:
 LBB2_706:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_708
-	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
@@ -12827,10 +12827,10 @@ LBB2_729:
 LBB2_730:
 	LONG $0x01c1f641                           // test    r9b, 1
 	JE   LBB2_732
-	LONG $0x0cfafdc5; BYTE $0xb9               // vpsubd    ymm1, ymm0, yword [rcx + 4*rdi]
-	LONG $0x54fafdc5; WORD $0x20b9             // vpsubd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
-	LONG $0x5cfafdc5; WORD $0x40b9             // vpsubd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
-	LONG $0x44fafdc5; WORD $0x60b9             // vpsubd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
+	LONG $0x0cfefdc5; BYTE $0xb9               // vpaddd    ymm1, ymm0, yword [rcx + 4*rdi]
+	LONG $0x54fefdc5; WORD $0x20b9             // vpaddd    ymm2, ymm0, yword [rcx + 4*rdi + 32]
+	LONG $0x5cfefdc5; WORD $0x40b9             // vpaddd    ymm3, ymm0, yword [rcx + 4*rdi + 64]
+	LONG $0x44fefdc5; WORD $0x60b9             // vpaddd    ymm0, ymm0, yword [rcx + 4*rdi + 96]
 	LONG $0x7f7ec1c4; WORD $0xb80c             // vmovdqu    yword [r8 + 4*rdi], ymm1
 	LONG $0x7f7ec1c4; WORD $0xb854; BYTE $0x20 // vmovdqu    yword [r8 + 4*rdi + 32], ymm2
 	LONG $0x7f7ec1c4; WORD $0xb85c; BYTE $0x40 // vmovdqu    yword [r8 + 4*rdi + 64], ymm3
diff --git a/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s b/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s
index b248a26904a..c7cb89a61ab 100644
--- a/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s
+++ b/go/arrow/compute/internal/kernels/base_arithmetic_sse4_amd64.s
@@ -17,63 +17,63 @@ TEXT ·_arithmetic_sse4(SB), $0-48
 	LONG $0x01fe8040         // cmp    sil, 1
 	JNE  LBB0_697
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_198
+	JG   LBB0_371
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
 	JLE  LBB0_5
 	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_239
+	JE   LBB0_412
 	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_255
+	JE   LBB0_428
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
 	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_271
+	JAE  LBB0_444
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_280:
+LBB0_453:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_282
+	JE   LBB0_455
 
-LBB0_281:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
+LBB0_454:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
 	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_281
+	JNE  LBB0_454
 
-LBB0_282:
+LBB0_455:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_283:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+LBB0_456:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
 	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
 	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
 	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
 	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_283
+	JNE  LBB0_456
 	JMP  LBB0_697
 
 LBB0_10:
 	LONG $0x02fe8040         // cmp    sil, 2
-	JE   LBB0_358
+	JE   LBB0_192
 	LONG $0x03fe8040         // cmp    sil, 3
 	JNE  LBB0_697
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
@@ -187,114 +187,114 @@ LBB0_117:
 	JNE  LBB0_117
 	JMP  LBB0_697
 
-LBB0_358:
+LBB0_192:
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
-	JG   LBB0_371
+	JG   LBB0_205
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
-	JLE  LBB0_360
+	JLE  LBB0_194
 	WORD $0xff83; BYTE $0x04 // cmp    edi, 4
-	JE   LBB0_412
+	JE   LBB0_246
 	WORD $0xff83; BYTE $0x05 // cmp    edi, 5
-	JE   LBB0_428
+	JE   LBB0_262
 	WORD $0xff83; BYTE $0x06 // cmp    edi, 6
 	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_444
+	JAE  LBB0_278
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_453:
+LBB0_287:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_455
+	JE   LBB0_289
 
-LBB0_454:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+LBB0_288:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
 	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_454
+	JNE  LBB0_288
 
-LBB0_455:
+LBB0_289:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_456:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+LBB0_290:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
 	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
 	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
 	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
 	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_456
+	JNE  LBB0_290
 	JMP  LBB0_697
 
-LBB0_198:
+LBB0_371:
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_199
+	JLE  LBB0_372
 	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_313
+	JE   LBB0_486
 	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_329
+	JE   LBB0_502
 	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
 	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_345
+	JAE  LBB0_518
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_354:
+LBB0_527:
 	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
 	WORD $0xf748; BYTE $0xd0 // not    rax
 	WORD $0x014c; BYTE $0xd0 // add    rax, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_356
+	JE   LBB0_529
 
-LBB0_355:
-	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04580ff2; BYTE $0xf2   // addsd    xmm0, qword [rdx + 8*rsi]
+LBB0_528:
+	LONG $0x04100ff2; BYTE $0xf2   // movsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045c0ff2; BYTE $0xf1   // subsd    xmm0, qword [rcx + 8*rsi]
 	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
 	LONG $0x01c68348               // add    rsi, 1
 	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_355
+	JNE  LBB0_528
 
-LBB0_356:
+LBB0_529:
 	LONG $0x03f88348 // cmp    rax, 3
 	JB   LBB0_697
 
-LBB0_357:
-	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
-	LONG $0x04580ff2; BYTE $0xf2               // addsd    xmm0, qword [rdx + 8*rsi]
+LBB0_530:
+	LONG $0x04100ff2; BYTE $0xf2               // movsd    xmm0, qword [rdx + 8*rsi]
+	LONG $0x045c0ff2; BYTE $0xf1               // subsd    xmm0, qword [rcx + 8*rsi]
 	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
-	LONG $0x44580ff2; WORD $0x08f2             // addsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x44100ff2; WORD $0x08f2             // movsd    xmm0, qword [rdx + 8*rsi + 8]
+	LONG $0x445c0ff2; WORD $0x08f1             // subsd    xmm0, qword [rcx + 8*rsi + 8]
 	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
-	LONG $0x44580ff2; WORD $0x10f2             // addsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x44100ff2; WORD $0x10f2             // movsd    xmm0, qword [rdx + 8*rsi + 16]
+	LONG $0x445c0ff2; WORD $0x10f1             // subsd    xmm0, qword [rcx + 8*rsi + 16]
 	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
-	LONG $0x44580ff2; WORD $0x18f2             // addsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x44100ff2; WORD $0x18f2             // movsd    xmm0, qword [rdx + 8*rsi + 24]
+	LONG $0x445c0ff2; WORD $0x18f1             // subsd    xmm0, qword [rcx + 8*rsi + 24]
 	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
 	LONG $0x04c68348                           // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_357
+	JNE  LBB0_530
 	JMP  LBB0_697
 
 LBB0_537:
@@ -405,108 +405,108 @@ LBB0_191:
 	JNE  LBB0_191
 	JMP  LBB0_697
 
-LBB0_371:
+LBB0_205:
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
-	JLE  LBB0_372
+	JLE  LBB0_206
 	WORD $0xff83; BYTE $0x09 // cmp    edi, 9
-	JE   LBB0_486
+	JE   LBB0_320
 	WORD $0xff83; BYTE $0x0b // cmp    edi, 11
-	JE   LBB0_502
+	JE   LBB0_336
 	WORD $0xff83; BYTE $0x0c // cmp    edi, 12
 	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_518
+	JAE  LBB0_352
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_527:
+LBB0_361:
 	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
 	WORD $0xf748; BYTE $0xd0 // not    rax
 	WORD $0x014c; BYTE $0xd0 // add    rax, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_529
+	JE   LBB0_363
 
-LBB0_528:
-	LONG $0x04100ff2; BYTE $0xf2   // movsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045c0ff2; BYTE $0xf1   // subsd    xmm0, qword [rcx + 8*rsi]
+LBB0_362:
+	LONG $0x04100ff2; BYTE $0xf1   // movsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x04580ff2; BYTE $0xf2   // addsd    xmm0, qword [rdx + 8*rsi]
 	LONG $0x110f41f2; WORD $0xf004 // movsd    qword [r8 + 8*rsi], xmm0
 	LONG $0x01c68348               // add    rsi, 1
 	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_528
+	JNE  LBB0_362
 
-LBB0_529:
+LBB0_363:
 	LONG $0x03f88348 // cmp    rax, 3
 	JB   LBB0_697
 
-LBB0_530:
-	LONG $0x04100ff2; BYTE $0xf2               // movsd    xmm0, qword [rdx + 8*rsi]
-	LONG $0x045c0ff2; BYTE $0xf1               // subsd    xmm0, qword [rcx + 8*rsi]
+LBB0_364:
+	LONG $0x04100ff2; BYTE $0xf1               // movsd    xmm0, qword [rcx + 8*rsi]
+	LONG $0x04580ff2; BYTE $0xf2               // addsd    xmm0, qword [rdx + 8*rsi]
 	LONG $0x110f41f2; WORD $0xf004             // movsd    qword [r8 + 8*rsi], xmm0
-	LONG $0x44100ff2; WORD $0x08f2             // movsd    xmm0, qword [rdx + 8*rsi + 8]
-	LONG $0x445c0ff2; WORD $0x08f1             // subsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x44100ff2; WORD $0x08f1             // movsd    xmm0, qword [rcx + 8*rsi + 8]
+	LONG $0x44580ff2; WORD $0x08f2             // addsd    xmm0, qword [rdx + 8*rsi + 8]
 	LONG $0x110f41f2; WORD $0xf044; BYTE $0x08 // movsd    qword [r8 + 8*rsi + 8], xmm0
-	LONG $0x44100ff2; WORD $0x10f2             // movsd    xmm0, qword [rdx + 8*rsi + 16]
-	LONG $0x445c0ff2; WORD $0x10f1             // subsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x44100ff2; WORD $0x10f1             // movsd    xmm0, qword [rcx + 8*rsi + 16]
+	LONG $0x44580ff2; WORD $0x10f2             // addsd    xmm0, qword [rdx + 8*rsi + 16]
 	LONG $0x110f41f2; WORD $0xf044; BYTE $0x10 // movsd    qword [r8 + 8*rsi + 16], xmm0
-	LONG $0x44100ff2; WORD $0x18f2             // movsd    xmm0, qword [rdx + 8*rsi + 24]
-	LONG $0x445c0ff2; WORD $0x18f1             // subsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x44100ff2; WORD $0x18f1             // movsd    xmm0, qword [rcx + 8*rsi + 24]
+	LONG $0x44580ff2; WORD $0x18f2             // addsd    xmm0, qword [rdx + 8*rsi + 24]
 	LONG $0x110f41f2; WORD $0xf044; BYTE $0x18 // movsd    qword [r8 + 8*rsi + 24], xmm0
 	LONG $0x04c68348                           // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_530
+	JNE  LBB0_364
 	JMP  LBB0_697
 
 LBB0_5:
 	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_210
+	JE   LBB0_383
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
 	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_226
+	JAE  LBB0_399
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_235:
+LBB0_408:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_237
+	JE   LBB0_410
 
-LBB0_236:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+LBB0_409:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
 	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_236
+	JNE  LBB0_409
 
-LBB0_237:
+LBB0_410:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_238:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+LBB0_411:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
 	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
 	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
 	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
 	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_238
+	JNE  LBB0_411
 	JMP  LBB0_697
 
 LBB0_14:
@@ -609,104 +609,104 @@ LBB0_72:
 	JNE  LBB0_72
 	JMP  LBB0_697
 
-LBB0_360:
+LBB0_194:
 	WORD $0xff83; BYTE $0x02 // cmp    edi, 2
-	JE   LBB0_383
+	JE   LBB0_217
 	WORD $0xff83; BYTE $0x03 // cmp    edi, 3
 	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_399
+	JAE  LBB0_233
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_408:
+LBB0_242:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_410
+	JE   LBB0_244
 
-LBB0_409:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+LBB0_243:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
 	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_409
+	JNE  LBB0_243
 
-LBB0_410:
+LBB0_244:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_411:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+LBB0_245:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
 	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
 	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
 	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
 	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_411
+	JNE  LBB0_245
 	JMP  LBB0_697
 
-LBB0_199:
+LBB0_372:
 	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_284
+	JE   LBB0_457
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
 	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_300
+	JAE  LBB0_473
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_309:
+LBB0_482:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_311
+	JE   LBB0_484
 
-LBB0_310:
-	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
+LBB0_483:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
 	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348 // add    rsi, 1
 	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_310
+	JNE  LBB0_483
 
-LBB0_311:
+LBB0_484:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_312:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+LBB0_485:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
 	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
 	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
 	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
 	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_312
+	JNE  LBB0_485
 	JMP  LBB0_697
 
 LBB0_538:
@@ -809,146 +809,146 @@ LBB0_146:
 	JNE  LBB0_146
 	JMP  LBB0_697
 
-LBB0_372:
+LBB0_206:
 	WORD $0xff83; BYTE $0x07 // cmp    edi, 7
-	JE   LBB0_457
+	JE   LBB0_291
 	WORD $0xff83; BYTE $0x08 // cmp    edi, 8
 	JNE  LBB0_697
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_473
+	JAE  LBB0_307
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_482:
+LBB0_316:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_484
+	JE   LBB0_318
 
-LBB0_483:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
+LBB0_317:
+	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
 	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348 // add    rsi, 1
 	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_483
+	JNE  LBB0_317
 
-LBB0_484:
+LBB0_318:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_485:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+LBB0_319:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
 	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
 	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
 	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
 	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_485
+	JNE  LBB0_319
 	JMP  LBB0_697
 
-LBB0_239:
+LBB0_412:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_242
+	JAE  LBB0_415
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_251:
+LBB0_424:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_253
+	JE   LBB0_426
 
-LBB0_252:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
+LBB0_425:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_252
+	JNE  LBB0_425
 
-LBB0_253:
+LBB0_426:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_254:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+LBB0_427:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
 	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
 	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
 	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_254
+	JNE  LBB0_427
 	JMP  LBB0_697
 
-LBB0_255:
+LBB0_428:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_258
+	JAE  LBB0_431
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_267:
+LBB0_440:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_269
+	JE   LBB0_442
 
-LBB0_268:
-	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
+LBB0_441:
+	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_268
+	JNE  LBB0_441
 
-LBB0_269:
+LBB0_442:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_270:
-	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
-	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
+LBB0_443:
+	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
+	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
-	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
+	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
+	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
 	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
-	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
+	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
+	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
 	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
-	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
+	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
+	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
 	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_270
+	JNE  LBB0_443
 	JMP  LBB0_697
 
 LBB0_578:
@@ -1135,188 +1135,188 @@ LBB0_104:
 	JNE  LBB0_104
 	JMP  LBB0_697
 
-LBB0_412:
+LBB0_246:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_415
+	JAE  LBB0_249
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_424:
+LBB0_258:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_426
+	JE   LBB0_260
 
-LBB0_425:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
+LBB0_259:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_425
+	JNE  LBB0_259
 
-LBB0_426:
+LBB0_260:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_427:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+LBB0_261:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
 	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
 	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
 	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_427
+	JNE  LBB0_261
 	JMP  LBB0_697
 
-LBB0_428:
+LBB0_262:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x10f98341         // cmp    r9d, 16
-	JAE  LBB0_431
+	JAE  LBB0_265
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_440:
+LBB0_274:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_442
+	JE   LBB0_276
 
-LBB0_441:
-	LONG $0x7204b70f             // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66             // sub    ax, word [rcx + 2*rsi]
+LBB0_275:
+	LONG $0x7104b70f             // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366             // add    ax, word [rdx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70 // mov    word [r8 + 2*rsi], ax
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc78348             // add    rdi, -1
-	JNE  LBB0_441
+	JNE  LBB0_275
 
-LBB0_442:
+LBB0_276:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_443:
-	LONG $0x7204b70f               // movzx    eax, word [rdx + 2*rsi]
-	LONG $0x71042b66               // sub    ax, word [rcx + 2*rsi]
+LBB0_277:
+	LONG $0x7104b70f               // movzx    eax, word [rcx + 2*rsi]
+	LONG $0x72040366               // add    ax, word [rdx + 2*rsi]
 	LONG $0x04894166; BYTE $0x70   // mov    word [r8 + 2*rsi], ax
-	LONG $0x7244b70f; BYTE $0x02   // movzx    eax, word [rdx + 2*rsi + 2]
-	LONG $0x71442b66; BYTE $0x02   // sub    ax, word [rcx + 2*rsi + 2]
+	LONG $0x7144b70f; BYTE $0x02   // movzx    eax, word [rcx + 2*rsi + 2]
+	LONG $0x72440366; BYTE $0x02   // add    ax, word [rdx + 2*rsi + 2]
 	LONG $0x44894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], ax
-	LONG $0x7244b70f; BYTE $0x04   // movzx    eax, word [rdx + 2*rsi + 4]
-	LONG $0x71442b66; BYTE $0x04   // sub    ax, word [rcx + 2*rsi + 4]
+	LONG $0x7144b70f; BYTE $0x04   // movzx    eax, word [rcx + 2*rsi + 4]
+	LONG $0x72440366; BYTE $0x04   // add    ax, word [rdx + 2*rsi + 4]
 	LONG $0x44894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], ax
-	LONG $0x7244b70f; BYTE $0x06   // movzx    eax, word [rdx + 2*rsi + 6]
-	LONG $0x71442b66; BYTE $0x06   // sub    ax, word [rcx + 2*rsi + 6]
+	LONG $0x7144b70f; BYTE $0x06   // movzx    eax, word [rcx + 2*rsi + 6]
+	LONG $0x72440366; BYTE $0x06   // add    ax, word [rdx + 2*rsi + 6]
 	LONG $0x44894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], ax
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
-	JNE  LBB0_443
+	JNE  LBB0_277
 	JMP  LBB0_697
 
-LBB0_313:
+LBB0_486:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_316
+	JAE  LBB0_489
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_325:
+LBB0_498:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_327
+	JE   LBB0_500
 
-LBB0_326:
-	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
+LBB0_499:
+	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
 	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348 // add    rsi, 1
 	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_326
+	JNE  LBB0_499
 
-LBB0_327:
+LBB0_500:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_328:
-	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
-	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
+LBB0_501:
+	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
 	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
 	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
 	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
 	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_328
+	JNE  LBB0_501
 	JMP  LBB0_697
 
-LBB0_329:
+LBB0_502:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_332
+	JAE  LBB0_505
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_341:
+LBB0_514:
 	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
 	WORD $0xf748; BYTE $0xd0 // not    rax
 	WORD $0x014c; BYTE $0xd0 // add    rax, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_343
+	JE   LBB0_516
 
-LBB0_342:
-	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04580ff3; BYTE $0xb2   // addss    xmm0, dword [rdx + 4*rsi]
+LBB0_515:
+	LONG $0x04100ff3; BYTE $0xb2   // movss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045c0ff3; BYTE $0xb1   // subss    xmm0, dword [rcx + 4*rsi]
 	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
 	LONG $0x01c68348               // add    rsi, 1
 	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_342
+	JNE  LBB0_515
 
-LBB0_343:
+LBB0_516:
 	LONG $0x03f88348 // cmp    rax, 3
 	JB   LBB0_697
 
-LBB0_344:
-	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
-	LONG $0x04580ff3; BYTE $0xb2               // addss    xmm0, dword [rdx + 4*rsi]
+LBB0_517:
+	LONG $0x04100ff3; BYTE $0xb2               // movss    xmm0, dword [rdx + 4*rsi]
+	LONG $0x045c0ff3; BYTE $0xb1               // subss    xmm0, dword [rcx + 4*rsi]
 	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x44580ff3; WORD $0x04b2             // addss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x44100ff3; WORD $0x04b2             // movss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x445c0ff3; WORD $0x04b1             // subss    xmm0, dword [rcx + 4*rsi + 4]
 	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
-	LONG $0x44580ff3; WORD $0x08b2             // addss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x44100ff3; WORD $0x08b2             // movss    xmm0, dword [rdx + 4*rsi + 8]
+	LONG $0x445c0ff3; WORD $0x08b1             // subss    xmm0, dword [rcx + 4*rsi + 8]
 	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
-	LONG $0x44580ff3; WORD $0x0cb2             // addss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x44100ff3; WORD $0x0cb2             // movss    xmm0, dword [rdx + 4*rsi + 12]
+	LONG $0x445c0ff3; WORD $0x0cb1             // subss    xmm0, dword [rcx + 4*rsi + 12]
 	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
 	LONG $0x04c68348                           // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_344
+	JNE  LBB0_517
 	JMP  LBB0_697
 
 LBB0_652:
@@ -1503,142 +1503,142 @@ LBB0_178:
 	JNE  LBB0_178
 	JMP  LBB0_697
 
-LBB0_486:
+LBB0_320:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
-	JAE  LBB0_489
+	JAE  LBB0_323
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_498:
+LBB0_332:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_500
+	JE   LBB0_334
 
-LBB0_499:
-	LONG $0xf2048b48 // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48 // sub    rax, qword [rcx + 8*rsi]
+LBB0_333:
+	LONG $0xf1048b48 // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348 // add    rax, qword [rdx + 8*rsi]
 	LONG $0xf0048949 // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348 // add    rsi, 1
 	LONG $0xffc78348 // add    rdi, -1
-	JNE  LBB0_499
+	JNE  LBB0_333
 
-LBB0_500:
+LBB0_334:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_501:
-	LONG $0xf2048b48             // mov    rax, qword [rdx + 8*rsi]
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+LBB0_335:
+	LONG $0xf1048b48             // mov    rax, qword [rcx + 8*rsi]
+	LONG $0xf2040348             // add    rax, qword [rdx + 8*rsi]
 	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	LONG $0xf2448b48; BYTE $0x08 // mov    rax, qword [rdx + 8*rsi + 8]
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf1448b48; BYTE $0x08 // mov    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf2440348; BYTE $0x08 // add    rax, qword [rdx + 8*rsi + 8]
 	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	LONG $0xf2448b48; BYTE $0x10 // mov    rax, qword [rdx + 8*rsi + 16]
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf1448b48; BYTE $0x10 // mov    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf2440348; BYTE $0x10 // add    rax, qword [rdx + 8*rsi + 16]
 	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	LONG $0xf2448b48; BYTE $0x18 // mov    rax, qword [rdx + 8*rsi + 24]
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf1448b48; BYTE $0x18 // mov    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf2440348; BYTE $0x18 // add    rax, qword [rdx + 8*rsi + 24]
 	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_501
+	JNE  LBB0_335
 	JMP  LBB0_697
 
-LBB0_502:
+LBB0_336:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_505
+	JAE  LBB0_339
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_514:
+LBB0_348:
 	WORD $0x8948; BYTE $0xf0 // mov    rax, rsi
 	WORD $0xf748; BYTE $0xd0 // not    rax
 	WORD $0x014c; BYTE $0xd0 // add    rax, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_516
+	JE   LBB0_350
 
-LBB0_515:
-	LONG $0x04100ff3; BYTE $0xb2   // movss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045c0ff3; BYTE $0xb1   // subss    xmm0, dword [rcx + 4*rsi]
+LBB0_349:
+	LONG $0x04100ff3; BYTE $0xb1   // movss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x04580ff3; BYTE $0xb2   // addss    xmm0, dword [rdx + 4*rsi]
 	LONG $0x110f41f3; WORD $0xb004 // movss    dword [r8 + 4*rsi], xmm0
 	LONG $0x01c68348               // add    rsi, 1
 	LONG $0xffc78348               // add    rdi, -1
-	JNE  LBB0_515
+	JNE  LBB0_349
 
-LBB0_516:
+LBB0_350:
 	LONG $0x03f88348 // cmp    rax, 3
 	JB   LBB0_697
 
-LBB0_517:
-	LONG $0x04100ff3; BYTE $0xb2               // movss    xmm0, dword [rdx + 4*rsi]
-	LONG $0x045c0ff3; BYTE $0xb1               // subss    xmm0, dword [rcx + 4*rsi]
+LBB0_351:
+	LONG $0x04100ff3; BYTE $0xb1               // movss    xmm0, dword [rcx + 4*rsi]
+	LONG $0x04580ff3; BYTE $0xb2               // addss    xmm0, dword [rdx + 4*rsi]
 	LONG $0x110f41f3; WORD $0xb004             // movss    dword [r8 + 4*rsi], xmm0
-	LONG $0x44100ff3; WORD $0x04b2             // movss    xmm0, dword [rdx + 4*rsi + 4]
-	LONG $0x445c0ff3; WORD $0x04b1             // subss    xmm0, dword [rcx + 4*rsi + 4]
-	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
-	LONG $0x44100ff3; WORD $0x08b2             // movss    xmm0, dword [rdx + 4*rsi + 8]
-	LONG $0x445c0ff3; WORD $0x08b1             // subss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x44100ff3; WORD $0x04b1             // movss    xmm0, dword [rcx + 4*rsi + 4]
+	LONG $0x44580ff3; WORD $0x04b2             // addss    xmm0, dword [rdx + 4*rsi + 4]
+	LONG $0x110f41f3; WORD $0xb044; BYTE $0x04 // movss    dword [r8 + 4*rsi + 4], xmm0
+	LONG $0x44100ff3; WORD $0x08b1             // movss    xmm0, dword [rcx + 4*rsi + 8]
+	LONG $0x44580ff3; WORD $0x08b2             // addss    xmm0, dword [rdx + 4*rsi + 8]
 	LONG $0x110f41f3; WORD $0xb044; BYTE $0x08 // movss    dword [r8 + 4*rsi + 8], xmm0
-	LONG $0x44100ff3; WORD $0x0cb2             // movss    xmm0, dword [rdx + 4*rsi + 12]
-	LONG $0x445c0ff3; WORD $0x0cb1             // subss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x44100ff3; WORD $0x0cb1             // movss    xmm0, dword [rcx + 4*rsi + 12]
+	LONG $0x44580ff3; WORD $0x0cb2             // addss    xmm0, dword [rdx + 4*rsi + 12]
 	LONG $0x110f41f3; WORD $0xb044; BYTE $0x0c // movss    dword [r8 + 4*rsi + 12], xmm0
 	LONG $0x04c68348                           // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2                   // cmp    r10, rsi
-	JNE  LBB0_517
+	JNE  LBB0_351
 	JMP  LBB0_697
 
-LBB0_210:
+LBB0_383:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_213
+	JAE  LBB0_386
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_222:
+LBB0_395:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_224
+	JE   LBB0_397
 
-LBB0_223:
-	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
+LBB0_396:
+	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
 	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_223
+	JNE  LBB0_396
 
-LBB0_224:
+LBB0_397:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_225:
-	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
-	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
+LBB0_398:
+	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
 	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
-	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
+	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
 	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
-	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
+	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
 	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
-	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
+	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
 	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_225
+	JNE  LBB0_398
 	JMP  LBB0_697
 
 LBB0_549:
@@ -1733,96 +1733,96 @@ LBB0_59:
 	JNE  LBB0_59
 	JMP  LBB0_697
 
-LBB0_383:
+LBB0_217:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
-	JAE  LBB0_386
+	JAE  LBB0_220
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_395:
+LBB0_229:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_397
+	JE   LBB0_231
 
-LBB0_396:
-	LONG $0x3204b60f         // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+LBB0_230:
+	LONG $0x3104b60f         // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32 // add    al, byte [rdx + rsi]
 	LONG $0x30048841         // mov    byte [r8 + rsi], al
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_396
+	JNE  LBB0_230
 
-LBB0_397:
+LBB0_231:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_398:
-	LONG $0x3204b60f             // movzx    eax, byte [rdx + rsi]
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+LBB0_232:
+	LONG $0x3104b60f             // movzx    eax, byte [rcx + rsi]
+	WORD $0x0402; BYTE $0x32     // add    al, byte [rdx + rsi]
 	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	LONG $0x3244b60f; BYTE $0x01 // movzx    eax, byte [rdx + rsi + 1]
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x3144b60f; BYTE $0x01 // movzx    eax, byte [rcx + rsi + 1]
+	LONG $0x01324402             // add    al, byte [rdx + rsi + 1]
 	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	LONG $0x3244b60f; BYTE $0x02 // movzx    eax, byte [rdx + rsi + 2]
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x3144b60f; BYTE $0x02 // movzx    eax, byte [rcx + rsi + 2]
+	LONG $0x02324402             // add    al, byte [rdx + rsi + 2]
 	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	LONG $0x3244b60f; BYTE $0x03 // movzx    eax, byte [rdx + rsi + 3]
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x3144b60f; BYTE $0x03 // movzx    eax, byte [rcx + rsi + 3]
+	LONG $0x03324402             // add    al, byte [rdx + rsi + 3]
 	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_398
+	JNE  LBB0_232
 	JMP  LBB0_697
 
-LBB0_284:
+LBB0_457:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_287
+	JAE  LBB0_460
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_296:
+LBB0_469:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_298
+	JE   LBB0_471
 
-LBB0_297:
-	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
+LBB0_470:
+	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
 	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_297
+	JNE  LBB0_470
 
-LBB0_298:
+LBB0_471:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_299:
-	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
-	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
+LBB0_472:
+	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
 	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
-	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
 	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
-	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
 	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
-	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
 	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_299
+	JNE  LBB0_472
 	JMP  LBB0_697
 
 LBB0_623:
@@ -1917,53 +1917,53 @@ LBB0_133:
 	JNE  LBB0_133
 	JMP  LBB0_697
 
-LBB0_457:
+LBB0_291:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB0_697
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
-	JAE  LBB0_460
+	JAE  LBB0_294
 	WORD $0xf631             // xor    esi, esi
 
-LBB0_469:
+LBB0_303:
 	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
 	WORD $0xf749; BYTE $0xd1 // not    r9
 	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
-	JE   LBB0_471
+	JE   LBB0_305
 
-LBB0_470:
-	WORD $0x048b; BYTE $0xb2 // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+LBB0_304:
+	WORD $0x048b; BYTE $0xb1 // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2 // add    eax, dword [rdx + 4*rsi]
 	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
-	JNE  LBB0_470
+	JNE  LBB0_304
 
-LBB0_471:
+LBB0_305:
 	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB0_697
 
-LBB0_472:
-	WORD $0x048b; BYTE $0xb2     // mov    eax, dword [rdx + 4*rsi]
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+LBB0_306:
+	WORD $0x048b; BYTE $0xb1     // mov    eax, dword [rcx + 4*rsi]
+	WORD $0x0403; BYTE $0xb2     // add    eax, dword [rdx + 4*rsi]
 	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	LONG $0x04b2448b             // mov    eax, dword [rdx + 4*rsi + 4]
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b1448b             // mov    eax, dword [rcx + 4*rsi + 4]
+	LONG $0x04b24403             // add    eax, dword [rdx + 4*rsi + 4]
 	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	LONG $0x08b2448b             // mov    eax, dword [rdx + 4*rsi + 8]
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b1448b             // mov    eax, dword [rcx + 4*rsi + 8]
+	LONG $0x08b24403             // add    eax, dword [rdx + 4*rsi + 8]
 	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	LONG $0x0cb2448b             // mov    eax, dword [rdx + 4*rsi + 12]
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb1448b             // mov    eax, dword [rcx + 4*rsi + 12]
+	LONG $0x0cb24403             // add    eax, dword [rdx + 4*rsi + 12]
 	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
-	JNE  LBB0_472
+	JNE  LBB0_306
 	JMP  LBB0_697
 
-LBB0_271:
+LBB0_444:
 	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
 	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -1977,9 +1977,9 @@ LBB0_271:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_280
+	JNE  LBB0_453
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_280
+	JNE  LBB0_453
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf8 // and    esi, -8
 	LONG $0xf8468d48         // lea    rax, [rsi - 8]
@@ -1987,33 +1987,33 @@ LBB0_271:
 	LONG $0x03e9c149         // shr    r9, 3
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_274
+	JE   LBB0_447
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_276:
+LBB0_449:
 	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
 	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
 	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
 	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
 	LONG $0x10c78348                           // add    rdi, 16
 	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_276
-	JMP  LBB0_277
+	JNE  LBB0_449
+	JMP  LBB0_450
 
 LBB0_610:
 	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
@@ -2119,7 +2119,7 @@ LBB0_110:
 	JNE  LBB0_110
 	JMP  LBB0_111
 
-LBB0_444:
+LBB0_278:
 	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
 	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -2133,9 +2133,9 @@ LBB0_444:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_453
+	JNE  LBB0_287
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_453
+	JNE  LBB0_287
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf8 // and    esi, -8
 	LONG $0xf8468d48         // lea    rax, [rsi - 8]
@@ -2143,35 +2143,35 @@ LBB0_444:
 	LONG $0x03e9c149         // shr    r9, 3
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_447
+	JE   LBB0_281
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_449:
+LBB0_283:
 	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
 	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
 	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
 	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
 	LONG $0x10c78348                           // add    rdi, 16
 	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_449
-	JMP  LBB0_450
+	JNE  LBB0_283
+	JMP  LBB0_284
 
-LBB0_345:
+LBB0_518:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
 	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -2185,9 +2185,9 @@ LBB0_345:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_354
+	JNE  LBB0_527
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_354
+	JNE  LBB0_527
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xfc // and    esi, -4
 	LONG $0xfc468d48         // lea    rax, [rsi - 4]
@@ -2195,33 +2195,33 @@ LBB0_345:
 	LONG $0x02e9c149         // shr    r9, 2
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_348
+	JE   LBB0_521
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_350:
+LBB0_523:
 	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
 	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
 	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
 	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
 	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
 	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x30f9             // movupd    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm0
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x30f9             // movupd    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm1
 	LONG $0x08c78348                           // add    rdi, 8
 	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_350
-	JMP  LBB0_351
+	JNE  LBB0_523
+	JMP  LBB0_524
 
 LBB0_684:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
@@ -2327,7 +2327,7 @@ LBB0_184:
 	JNE  LBB0_184
 	JMP  LBB0_185
 
-LBB0_518:
+LBB0_352:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
 	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -2341,9 +2341,9 @@ LBB0_518:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_527
+	JNE  LBB0_361
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_527
+	JNE  LBB0_361
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xfc // and    esi, -4
 	LONG $0xfc468d48         // lea    rax, [rsi - 4]
@@ -2351,35 +2351,35 @@ LBB0_518:
 	LONG $0x02e9c149         // shr    r9, 2
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_521
+	JE   LBB0_355
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_523:
+LBB0_357:
 	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
 	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
 	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
 	LONG $0x44100f66; WORD $0x20fa             // movupd    xmm0, oword [rdx + 8*rdi + 32]
 	LONG $0x4c100f66; WORD $0x30fa             // movupd    xmm1, oword [rdx + 8*rdi + 48]
 	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x30f9             // movupd    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x30f9             // movupd    xmm0, oword [rcx + 8*rdi + 48]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm0
 	LONG $0x08c78348                           // add    rdi, 8
 	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_523
-	JMP  LBB0_524
+	JNE  LBB0_357
+	JMP  LBB0_358
 
-LBB0_226:
+LBB0_399:
 	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
 	LONG $0x12048d4a         // lea    rax, [rdx + r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -2393,9 +2393,9 @@ LBB0_226:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_235
+	JNE  LBB0_408
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_235
+	JNE  LBB0_408
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0 // and    esi, -32
 	LONG $0xe0468d48         // lea    rax, [rsi - 32]
@@ -2403,33 +2403,33 @@ LBB0_226:
 	LONG $0x05e9c149         // shr    r9, 5
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_229
+	JE   LBB0_402
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_231:
+LBB0_404:
 	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
 	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
 	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
 	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
 	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
 	LONG $0x40c78348                           // add    rdi, 64
 	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_231
-	JMP  LBB0_232
+	JNE  LBB0_404
+	JMP  LBB0_405
 
 LBB0_565:
 	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
@@ -2535,7 +2535,7 @@ LBB0_65:
 	JNE  LBB0_65
 	JMP  LBB0_66
 
-LBB0_399:
+LBB0_233:
 	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
 	LONG $0x12048d4a         // lea    rax, [rdx + r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -2549,9 +2549,9 @@ LBB0_399:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_408
+	JNE  LBB0_242
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_408
+	JNE  LBB0_242
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0 // and    esi, -32
 	LONG $0xe0468d48         // lea    rax, [rsi - 32]
@@ -2559,35 +2559,35 @@ LBB0_399:
 	LONG $0x05e9c149         // shr    r9, 5
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_402
+	JE   LBB0_236
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_404:
+LBB0_238:
 	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
 	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
 	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
 	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
 	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
 	LONG $0x40c78348                           // add    rdi, 64
 	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_404
-	JMP  LBB0_405
+	JNE  LBB0_238
+	JMP  LBB0_239
 
-LBB0_300:
+LBB0_473:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
 	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -2601,9 +2601,9 @@ LBB0_300:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_309
+	JNE  LBB0_482
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_309
+	JNE  LBB0_482
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xfc // and    esi, -4
 	LONG $0xfc468d48         // lea    rax, [rsi - 4]
@@ -2611,33 +2611,33 @@ LBB0_300:
 	LONG $0x02e9c149         // shr    r9, 2
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_303
+	JE   LBB0_476
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_305:
+LBB0_478:
 	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
 	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
 	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
 	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
 	LONG $0x08c78348                           // add    rdi, 8
 	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_305
-	JMP  LBB0_306
+	JNE  LBB0_478
+	JMP  LBB0_479
 
 LBB0_639:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
@@ -2743,7 +2743,7 @@ LBB0_139:
 	JNE  LBB0_139
 	JMP  LBB0_140
 
-LBB0_473:
+LBB0_307:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
 	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -2757,9 +2757,9 @@ LBB0_473:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_482
+	JNE  LBB0_316
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_482
+	JNE  LBB0_316
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xfc // and    esi, -4
 	LONG $0xfc468d48         // lea    rax, [rsi - 4]
@@ -2767,35 +2767,35 @@ LBB0_473:
 	LONG $0x02e9c149         // shr    r9, 2
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_476
+	JE   LBB0_310
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_478:
+LBB0_312:
 	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
 	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
 	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
 	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
 	LONG $0x08c78348                           // add    rdi, 8
 	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_478
-	JMP  LBB0_479
+	JNE  LBB0_312
+	JMP  LBB0_313
 
-LBB0_242:
+LBB0_415:
 	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
 	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -2809,9 +2809,9 @@ LBB0_242:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_251
+	JNE  LBB0_424
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_251
+	JNE  LBB0_424
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
 	LONG $0xf0468d48         // lea    rax, [rsi - 16]
@@ -2819,35 +2819,35 @@ LBB0_242:
 	LONG $0x04e9c149         // shr    r9, 4
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_245
+	JE   LBB0_418
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_247:
+LBB0_420:
 	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
 	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
 	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
 	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
 	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
 	LONG $0x20c78348                           // add    rdi, 32
 	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_247
-	JMP  LBB0_248
+	JNE  LBB0_420
+	JMP  LBB0_421
 
-LBB0_258:
+LBB0_431:
 	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
 	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -2861,9 +2861,9 @@ LBB0_258:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_267
+	JNE  LBB0_440
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_267
+	JNE  LBB0_440
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
 	LONG $0xf0468d48         // lea    rax, [rsi - 16]
@@ -2871,33 +2871,33 @@ LBB0_258:
 	LONG $0x04e9c149         // shr    r9, 4
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_261
+	JE   LBB0_434
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_263:
+LBB0_436:
 	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
 	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
 	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
 	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
 	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
 	LONG $0x20c78348                           // add    rdi, 32
 	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_263
-	JMP  LBB0_264
+	JNE  LBB0_436
+	JMP  LBB0_437
 
 LBB0_581:
 	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
@@ -3107,7 +3107,7 @@ LBB0_97:
 	JNE  LBB0_97
 	JMP  LBB0_98
 
-LBB0_415:
+LBB0_249:
 	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
 	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -3121,9 +3121,9 @@ LBB0_415:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_424
+	JNE  LBB0_258
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_424
+	JNE  LBB0_258
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
 	LONG $0xf0468d48         // lea    rax, [rsi - 16]
@@ -3131,35 +3131,35 @@ LBB0_415:
 	LONG $0x04e9c149         // shr    r9, 4
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_418
+	JE   LBB0_252
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_420:
+LBB0_254:
 	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
 	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
 	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
 	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
 	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
 	LONG $0x20c78348                           // add    rdi, 32
 	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_420
-	JMP  LBB0_421
+	JNE  LBB0_254
+	JMP  LBB0_255
 
-LBB0_431:
+LBB0_265:
 	LONG $0x50348d4b         // lea    rsi, [r8 + 2*r10]
 	LONG $0x52048d4a         // lea    rax, [rdx + 2*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -3173,9 +3173,9 @@ LBB0_431:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_440
+	JNE  LBB0_274
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_440
+	JNE  LBB0_274
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf0 // and    esi, -16
 	LONG $0xf0468d48         // lea    rax, [rsi - 16]
@@ -3183,35 +3183,35 @@ LBB0_431:
 	LONG $0x04e9c149         // shr    r9, 4
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_434
+	JE   LBB0_268
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_436:
+LBB0_270:
 	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
 	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
 	LONG $0x446f0ff3; WORD $0x207a             // movdqu    xmm0, oword [rdx + 2*rdi + 32]
 	LONG $0x4c6f0ff3; WORD $0x307a             // movdqu    xmm1, oword [rdx + 2*rdi + 48]
 	LONG $0x546f0ff3; WORD $0x2079             // movdqu    xmm2, oword [rcx + 2*rdi + 32]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3079             // movdqu    xmm0, oword [rcx + 2*rdi + 48]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm0
 	LONG $0x20c78348                           // add    rdi, 32
 	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_436
-	JMP  LBB0_437
+	JNE  LBB0_270
+	JMP  LBB0_271
 
-LBB0_316:
+LBB0_489:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
 	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -3225,9 +3225,9 @@ LBB0_316:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_325
+	JNE  LBB0_498
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_325
+	JNE  LBB0_498
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xfc // and    esi, -4
 	LONG $0xfc468d48         // lea    rax, [rsi - 4]
@@ -3235,35 +3235,35 @@ LBB0_316:
 	LONG $0x02e9c149         // shr    r9, 2
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_319
+	JE   LBB0_492
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_321:
+LBB0_494:
 	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
 	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
 	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
 	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
-	LONG $0x08c78348                           // add    rdi, 8
-	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_321
-	JMP  LBB0_322
-
-LBB0_332:
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0x08c78348                           // add    rdi, 8
+	LONG $0x02c08348                           // add    rax, 2
+	JNE  LBB0_494
+	JMP  LBB0_495
+
+LBB0_505:
 	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
 	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -3277,9 +3277,9 @@ LBB0_332:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_341
+	JNE  LBB0_514
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_341
+	JNE  LBB0_514
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf8 // and    esi, -8
 	LONG $0xf8468d48         // lea    rax, [rsi - 8]
@@ -3287,33 +3287,33 @@ LBB0_332:
 	LONG $0x03e9c149         // shr    r9, 3
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_335
+	JE   LBB0_508
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_337:
+LBB0_510:
 	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
 	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
 	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
+	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
 	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
 	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
 	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rdi + 48]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x44110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm0
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0xb954100f; BYTE $0x30   // movups    xmm2, oword [rcx + 4*rdi + 48]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x44110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x4c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm1
 	LONG $0x10c78348               // add    rdi, 16
 	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_337
-	JMP  LBB0_338
+	JNE  LBB0_510
+	JMP  LBB0_511
 
 LBB0_655:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
@@ -3523,7 +3523,7 @@ LBB0_171:
 	JNE  LBB0_171
 	JMP  LBB0_172
 
-LBB0_489:
+LBB0_323:
 	LONG $0xd0348d4b         // lea    rsi, [r8 + 8*r10]
 	LONG $0xd2048d4a         // lea    rax, [rdx + 8*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -3537,9 +3537,9 @@ LBB0_489:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_498
+	JNE  LBB0_332
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_498
+	JNE  LBB0_332
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xfc // and    esi, -4
 	LONG $0xfc468d48         // lea    rax, [rsi - 4]
@@ -3547,35 +3547,35 @@ LBB0_489:
 	LONG $0x02e9c149         // shr    r9, 2
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_492
+	JE   LBB0_326
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_494:
+LBB0_328:
 	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
 	LONG $0x446f0ff3; WORD $0x20fa             // movdqu    xmm0, oword [rdx + 8*rdi + 32]
 	LONG $0x4c6f0ff3; WORD $0x30fa             // movdqu    xmm1, oword [rdx + 8*rdi + 48]
 	LONG $0x546f0ff3; WORD $0x20f9             // movdqu    xmm2, oword [rcx + 8*rdi + 32]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30f9             // movdqu    xmm0, oword [rcx + 8*rdi + 48]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm0
 	LONG $0x08c78348                           // add    rdi, 8
 	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_494
-	JMP  LBB0_495
+	JNE  LBB0_328
+	JMP  LBB0_329
 
-LBB0_505:
+LBB0_339:
 	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
 	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -3589,9 +3589,9 @@ LBB0_505:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_514
+	JNE  LBB0_348
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_514
+	JNE  LBB0_348
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf8 // and    esi, -8
 	LONG $0xf8468d48         // lea    rax, [rsi - 8]
@@ -3599,35 +3599,35 @@ LBB0_505:
 	LONG $0x03e9c149         // shr    r9, 3
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_508
+	JE   LBB0_342
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_510:
+LBB0_344:
 	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
 	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
 	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
-	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
 	LONG $0xba44100f; BYTE $0x20   // movups    xmm0, oword [rdx + 4*rdi + 32]
 	LONG $0xba4c100f; BYTE $0x30   // movups    xmm1, oword [rdx + 4*rdi + 48]
 	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0xb954100f; BYTE $0x30   // movups    xmm2, oword [rcx + 4*rdi + 48]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x44110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x4c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm1
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x30   // movups    xmm0, oword [rcx + 4*rdi + 48]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x44110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm0
 	LONG $0x10c78348               // add    rdi, 16
 	LONG $0x02c08348               // add    rax, 2
-	JNE  LBB0_510
-	JMP  LBB0_511
+	JNE  LBB0_344
+	JMP  LBB0_345
 
-LBB0_213:
+LBB0_386:
 	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
 	LONG $0x12048d4a         // lea    rax, [rdx + r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -3641,9 +3641,9 @@ LBB0_213:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_222
+	JNE  LBB0_395
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_222
+	JNE  LBB0_395
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0 // and    esi, -32
 	LONG $0xe0468d48         // lea    rax, [rsi - 32]
@@ -3651,33 +3651,33 @@ LBB0_213:
 	LONG $0x05e9c149         // shr    r9, 5
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_216
+	JE   LBB0_389
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_218:
+LBB0_391:
 	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
 	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
 	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
 	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
 	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
 	LONG $0x40c78348                           // add    rdi, 64
 	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_218
-	JMP  LBB0_219
+	JNE  LBB0_391
+	JMP  LBB0_392
 
 LBB0_552:
 	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
@@ -3783,7 +3783,7 @@ LBB0_52:
 	JNE  LBB0_52
 	JMP  LBB0_53
 
-LBB0_386:
+LBB0_220:
 	LONG $0x10348d4b         // lea    rsi, [r8 + r10]
 	LONG $0x12048d4a         // lea    rax, [rdx + r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -3797,9 +3797,9 @@ LBB0_386:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_395
+	JNE  LBB0_229
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_395
+	JNE  LBB0_229
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0 // and    esi, -32
 	LONG $0xe0468d48         // lea    rax, [rsi - 32]
@@ -3807,35 +3807,35 @@ LBB0_386:
 	LONG $0x05e9c149         // shr    r9, 5
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_389
+	JE   LBB0_223
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_391:
+LBB0_225:
 	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
 	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
 	LONG $0x446f0ff3; WORD $0x203a             // movdqu    xmm0, oword [rdx + rdi + 32]
 	LONG $0x4c6f0ff3; WORD $0x303a             // movdqu    xmm1, oword [rdx + rdi + 48]
 	LONG $0x546f0ff3; WORD $0x2039             // movdqu    xmm2, oword [rcx + rdi + 32]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x3039             // movdqu    xmm0, oword [rcx + rdi + 48]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm0
 	LONG $0x40c78348                           // add    rdi, 64
 	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_391
-	JMP  LBB0_392
+	JNE  LBB0_225
+	JMP  LBB0_226
 
-LBB0_287:
+LBB0_460:
 	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
 	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -3849,9 +3849,9 @@ LBB0_287:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_296
+	JNE  LBB0_469
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_296
+	JNE  LBB0_469
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf8 // and    esi, -8
 	LONG $0xf8468d48         // lea    rax, [rsi - 8]
@@ -3859,33 +3859,33 @@ LBB0_287:
 	LONG $0x03e9c149         // shr    r9, 3
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_290
+	JE   LBB0_463
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_292:
+LBB0_465:
 	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
 	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
 	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
 	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
 	LONG $0x10c78348                           // add    rdi, 16
 	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_292
-	JMP  LBB0_293
+	JNE  LBB0_465
+	JMP  LBB0_466
 
 LBB0_626:
 	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
@@ -3991,7 +3991,7 @@ LBB0_126:
 	JNE  LBB0_126
 	JMP  LBB0_127
 
-LBB0_460:
+LBB0_294:
 	LONG $0x90348d4b         // lea    rsi, [r8 + 4*r10]
 	LONG $0x92048d4a         // lea    rax, [rdx + 4*r10]
 	WORD $0x394c; BYTE $0xc0 // cmp    rax, r8
@@ -4005,9 +4005,9 @@ LBB0_460:
 	LONG $0xd7970f40         // seta    dil
 	WORD $0xf631             // xor    esi, esi
 	WORD $0x8445; BYTE $0xd9 // test    r9b, r11b
-	JNE  LBB0_469
+	JNE  LBB0_303
 	WORD $0x2040; BYTE $0xf8 // and    al, dil
-	JNE  LBB0_469
+	JNE  LBB0_303
 	WORD $0x8944; BYTE $0xd6 // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf8 // and    esi, -8
 	LONG $0xf8468d48         // lea    rax, [rsi - 8]
@@ -4015,52 +4015,52 @@ LBB0_460:
 	LONG $0x03e9c149         // shr    r9, 3
 	LONG $0x01c18349         // add    r9, 1
 	WORD $0x8548; BYTE $0xc0 // test    rax, rax
-	JE   LBB0_463
+	JE   LBB0_297
 	WORD $0x894c; BYTE $0xc8 // mov    rax, r9
 	LONG $0xfee08348         // and    rax, -2
 	WORD $0xf748; BYTE $0xd8 // neg    rax
 	WORD $0xff31             // xor    edi, edi
 
-LBB0_465:
+LBB0_299:
 	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
 	LONG $0x446f0ff3; WORD $0x20ba             // movdqu    xmm0, oword [rdx + 4*rdi + 32]
 	LONG $0x4c6f0ff3; WORD $0x30ba             // movdqu    xmm1, oword [rdx + 4*rdi + 48]
 	LONG $0x546f0ff3; WORD $0x20b9             // movdqu    xmm2, oword [rcx + 4*rdi + 32]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x30b9             // movdqu    xmm0, oword [rcx + 4*rdi + 48]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm0
 	LONG $0x10c78348                           // add    rdi, 16
 	LONG $0x02c08348                           // add    rax, 2
-	JNE  LBB0_465
-	JMP  LBB0_466
+	JNE  LBB0_299
+	JMP  LBB0_300
 
-LBB0_274:
+LBB0_447:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_277:
+LBB0_450:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_279
+	JE   LBB0_452
 	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
 
-LBB0_279:
+LBB0_452:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_280
+	JNE  LBB0_453
 	JMP  LBB0_697
 
 LBB0_613:
@@ -4103,44 +4103,44 @@ LBB0_113:
 	JNE  LBB0_114
 	JMP  LBB0_697
 
-LBB0_447:
+LBB0_281:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_450:
+LBB0_284:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_452
+	JE   LBB0_286
 	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
 
-LBB0_452:
+LBB0_286:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_453
+	JNE  LBB0_287
 	JMP  LBB0_697
 
-LBB0_348:
+LBB0_521:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_351:
+LBB0_524:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_353
+	JE   LBB0_526
 	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
 	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
 	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0580f66                           // addpd    xmm2, xmm0
-	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1580f66                           // addpd    xmm0, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
+	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
+	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
 
-LBB0_353:
+LBB0_526:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_354
+	JNE  LBB0_527
 	JMP  LBB0_697
 
 LBB0_687:
@@ -4183,44 +4183,44 @@ LBB0_187:
 	JNE  LBB0_188
 	JMP  LBB0_697
 
-LBB0_521:
+LBB0_355:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_524:
+LBB0_358:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_526
+	JE   LBB0_360
 	LONG $0x04100f66; BYTE $0xfa               // movupd    xmm0, oword [rdx + 8*rdi]
 	LONG $0x4c100f66; WORD $0x10fa             // movupd    xmm1, oword [rdx + 8*rdi + 16]
 	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc25c0f66                           // subpd    xmm0, xmm2
-	LONG $0x54100f66; WORD $0x10f9             // movupd    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xca5c0f66                           // subpd    xmm1, xmm2
-	LONG $0x110f4166; WORD $0xf804             // movupd    oword [r8 + 8*rdi], xmm0
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0xd0580f66                           // addpd    xmm2, xmm0
+	LONG $0x44100f66; WORD $0x10f9             // movupd    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1580f66                           // addpd    xmm0, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf844; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm0
 
-LBB0_526:
+LBB0_360:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_527
+	JNE  LBB0_361
 	JMP  LBB0_697
 
-LBB0_229:
+LBB0_402:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_232:
+LBB0_405:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_234
+	JE   LBB0_407
 	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
 	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
 
-LBB0_234:
+LBB0_407:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_235
+	JNE  LBB0_408
 	JMP  LBB0_697
 
 LBB0_568:
@@ -4263,44 +4263,44 @@ LBB0_68:
 	JNE  LBB0_69
 	JMP  LBB0_697
 
-LBB0_402:
+LBB0_236:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_405:
+LBB0_239:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_407
+	JE   LBB0_241
 	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
 	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
 
-LBB0_407:
+LBB0_241:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_408
+	JNE  LBB0_242
 	JMP  LBB0_697
 
-LBB0_303:
+LBB0_476:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_306:
+LBB0_479:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_308
+	JE   LBB0_481
 	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
 
-LBB0_308:
+LBB0_481:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_309
+	JNE  LBB0_482
 	JMP  LBB0_697
 
 LBB0_642:
@@ -4343,64 +4343,64 @@ LBB0_142:
 	JNE  LBB0_143
 	JMP  LBB0_697
 
-LBB0_476:
+LBB0_310:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_479:
+LBB0_313:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_481
+	JE   LBB0_315
 	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
 
-LBB0_481:
+LBB0_315:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_482
+	JNE  LBB0_316
 	JMP  LBB0_697
 
-LBB0_245:
+LBB0_418:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_248:
+LBB0_421:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_250
+	JE   LBB0_423
 	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
 	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
 
-LBB0_250:
+LBB0_423:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_251
+	JNE  LBB0_424
 	JMP  LBB0_697
 
-LBB0_261:
+LBB0_434:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_264:
+LBB0_437:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_266
+	JE   LBB0_439
 	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
 	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
-	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
 
-LBB0_266:
+LBB0_439:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_267
+	JNE  LBB0_440
 	JMP  LBB0_697
 
 LBB0_584:
@@ -4483,84 +4483,84 @@ LBB0_100:
 	JNE  LBB0_101
 	JMP  LBB0_697
 
-LBB0_418:
+LBB0_252:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_421:
+LBB0_255:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_423
+	JE   LBB0_257
 	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
 	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
 
-LBB0_423:
+LBB0_257:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_424
+	JNE  LBB0_258
 	JMP  LBB0_697
 
-LBB0_434:
+LBB0_268:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_437:
+LBB0_271:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_439
+	JE   LBB0_273
 	LONG $0x046f0ff3; BYTE $0x7a               // movdqu    xmm0, oword [rdx + 2*rdi]
 	LONG $0x4c6f0ff3; WORD $0x107a             // movdqu    xmm1, oword [rdx + 2*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x79               // movdqu    xmm2, oword [rcx + 2*rdi]
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x7804             // movdqu    oword [r8 + 2*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1079             // movdqu    xmm0, oword [rcx + 2*rdi + 16]
+	LONG $0xc1fd0f66                           // paddw    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x7814             // movdqu    oword [r8 + 2*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
 
-LBB0_439:
+LBB0_273:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_440
+	JNE  LBB0_274
 	JMP  LBB0_697
 
-LBB0_319:
+LBB0_492:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_322:
+LBB0_495:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_324
+	JE   LBB0_497
 	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
-	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
 
-LBB0_324:
+LBB0_497:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_325
+	JNE  LBB0_498
 	JMP  LBB0_697
 
-LBB0_335:
+LBB0_508:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_338:
+LBB0_511:
 	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB0_340
+	JE   LBB0_513
 	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
 	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
 	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
-	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
+	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
+	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
+	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
+	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
+	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
 
-LBB0_340:
+LBB0_513:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_341
+	JNE  LBB0_514
 	JMP  LBB0_697
 
 LBB0_658:
@@ -4643,64 +4643,64 @@ LBB0_174:
 	JNE  LBB0_175
 	JMP  LBB0_697
 
-LBB0_492:
+LBB0_326:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_495:
+LBB0_329:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_497
+	JE   LBB0_331
 	LONG $0x046f0ff3; BYTE $0xfa               // movdqu    xmm0, oword [rdx + 8*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10fa             // movdqu    xmm1, oword [rdx + 8*rdi + 16]
-	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf804             // movdqu    oword [r8 + 8*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0x146f0ff3; BYTE $0xf9               // movdqu    xmm2, oword [rcx + 8*rdi]
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10f9             // movdqu    xmm0, oword [rcx + 8*rdi + 16]
+	LONG $0xc1d40f66                           // paddq    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xf814             // movdqu    oword [r8 + 8*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
 
-LBB0_497:
+LBB0_331:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_498
+	JNE  LBB0_332
 	JMP  LBB0_697
 
-LBB0_508:
+LBB0_342:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_511:
+LBB0_345:
 	LONG $0x01c1f641               // test    r9b, 1
-	JE   LBB0_513
+	JE   LBB0_347
 	LONG $0xba04100f               // movups    xmm0, oword [rdx + 4*rdi]
 	LONG $0xba4c100f; BYTE $0x10   // movups    xmm1, oword [rdx + 4*rdi + 16]
 	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
-	WORD $0x5c0f; BYTE $0xc2       // subps    xmm0, xmm2
-	LONG $0xb954100f; BYTE $0x10   // movups    xmm2, oword [rcx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xca       // subps    xmm1, xmm2
-	LONG $0x04110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm0
-	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
+	WORD $0x580f; BYTE $0xd0       // addps    xmm2, xmm0
+	LONG $0xb944100f; BYTE $0x10   // movups    xmm0, oword [rcx + 4*rdi + 16]
+	WORD $0x580f; BYTE $0xc1       // addps    xmm0, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x44110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm0
 
-LBB0_513:
+LBB0_347:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_514
+	JNE  LBB0_348
 	JMP  LBB0_697
 
-LBB0_216:
+LBB0_389:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_219:
+LBB0_392:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_221
+	JE   LBB0_394
 	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
 	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
-	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
 
-LBB0_221:
+LBB0_394:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_222
+	JNE  LBB0_395
 	JMP  LBB0_697
 
 LBB0_555:
@@ -4743,44 +4743,44 @@ LBB0_55:
 	JNE  LBB0_56
 	JMP  LBB0_697
 
-LBB0_389:
+LBB0_223:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_392:
+LBB0_226:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_394
+	JE   LBB0_228
 	LONG $0x046f0ff3; BYTE $0x3a               // movdqu    xmm0, oword [rdx + rdi]
 	LONG $0x4c6f0ff3; WORD $0x103a             // movdqu    xmm1, oword [rdx + rdi + 16]
 	LONG $0x146f0ff3; BYTE $0x39               // movdqu    xmm2, oword [rcx + rdi]
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x3804             // movdqu    oword [r8 + rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x1039             // movdqu    xmm0, oword [rcx + rdi + 16]
+	LONG $0xc1fc0f66                           // paddb    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0x3814             // movdqu    oword [r8 + rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
 
-LBB0_394:
+LBB0_228:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_395
+	JNE  LBB0_229
 	JMP  LBB0_697
 
-LBB0_290:
+LBB0_463:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_293:
+LBB0_466:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_295
+	JE   LBB0_468
 	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
-	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
-	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
 
-LBB0_295:
+LBB0_468:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_296
+	JNE  LBB0_469
 	JMP  LBB0_697
 
 LBB0_629:
@@ -4823,24 +4823,24 @@ LBB0_129:
 	JNE  LBB0_130
 	JMP  LBB0_697
 
-LBB0_463:
+LBB0_297:
 	WORD $0xff31 // xor    edi, edi
 
-LBB0_466:
+LBB0_300:
 	LONG $0x01c1f641                           // test    r9b, 1
-	JE   LBB0_468
+	JE   LBB0_302
 	LONG $0x046f0ff3; BYTE $0xba               // movdqu    xmm0, oword [rdx + 4*rdi]
 	LONG $0x4c6f0ff3; WORD $0x10ba             // movdqu    xmm1, oword [rdx + 4*rdi + 16]
 	LONG $0x146f0ff3; BYTE $0xb9               // movdqu    xmm2, oword [rcx + 4*rdi]
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb804             // movdqu    oword [r8 + 4*rdi], xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x446f0ff3; WORD $0x10b9             // movdqu    xmm0, oword [rcx + 4*rdi + 16]
+	LONG $0xc1fe0f66                           // paddd    xmm0, xmm1
+	LONG $0x7f0f41f3; WORD $0xb814             // movdqu    oword [r8 + 4*rdi], xmm2
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
 
-LBB0_468:
+LBB0_302:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
-	JNE  LBB0_469
+	JNE  LBB0_303
 
 LBB0_697:
 	RET
@@ -4896,7 +4896,7 @@ LBB1_421:
 
 LBB1_422:
 	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
+	WORD $0xc129             // sub    ecx, eax
 	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
@@ -4908,16 +4908,16 @@ LBB1_423:
 
 LBB1_424:
 	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
 	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
 	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -5095,7 +5095,7 @@ LBB1_445:
 
 LBB1_446:
 	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
+	WORD $0xc101             // add    ecx, eax
 	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
@@ -5107,16 +5107,16 @@ LBB1_447:
 
 LBB1_448:
 	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0xc101                 // add    ecx, eax
 	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0xc101                 // add    ecx, eax
 	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
 	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0xc101                 // add    ecx, eax
 	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
 	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0xc101                 // add    ecx, eax
 	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -5158,7 +5158,7 @@ LBB1_453:
 
 LBB1_454:
 	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8580ff2               // addsd    xmm1, xmm0
+	LONG $0xc85c0ff2               // subsd    xmm1, xmm0
 	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
 	LONG $0x01c18348               // add    rcx, 1
 	LONG $0xffc78348               // add    rdi, -1
@@ -5170,16 +5170,16 @@ LBB1_455:
 
 LBB1_456:
 	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
 	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
 	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
 	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
 	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
 	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
 	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
 	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
 	LONG $0x04c18348                           // add    rcx, 4
 	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
@@ -5347,7 +5347,7 @@ LBB1_477:
 
 LBB1_478:
 	LONG $0x0c100ff2; BYTE $0xca   // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85c0ff2               // subsd    xmm1, xmm0
+	LONG $0xc8580ff2               // addsd    xmm1, xmm0
 	LONG $0x110f41f2; WORD $0xc80c // movsd    qword [r8 + 8*rcx], xmm1
 	LONG $0x01c18348               // add    rcx, 1
 	LONG $0xffc78348               // add    rdi, -1
@@ -5359,16 +5359,16 @@ LBB1_479:
 
 LBB1_480:
 	LONG $0x0c100ff2; BYTE $0xca               // movsd    xmm1, qword [rdx + 8*rcx]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
 	LONG $0x110f41f2; WORD $0xc80c             // movsd    qword [r8 + 8*rcx], xmm1
 	LONG $0x4c100ff2; WORD $0x08ca             // movsd    xmm1, qword [rdx + 8*rcx + 8]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
 	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x08 // movsd    qword [r8 + 8*rcx + 8], xmm1
 	LONG $0x4c100ff2; WORD $0x10ca             // movsd    xmm1, qword [rdx + 8*rcx + 16]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
 	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x10 // movsd    qword [r8 + 8*rcx + 16], xmm1
 	LONG $0x4c100ff2; WORD $0x18ca             // movsd    xmm1, qword [rdx + 8*rcx + 24]
-	LONG $0xc85c0ff2                           // subsd    xmm1, xmm0
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
 	LONG $0x110f41f2; WORD $0xc84c; BYTE $0x18 // movsd    qword [r8 + 8*rcx + 24], xmm1
 	LONG $0x04c18348                           // add    rcx, 4
 	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
@@ -5406,7 +5406,7 @@ LBB1_485:
 
 LBB1_486:
 	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
+	WORD $0xc128     // sub    cl, al
 	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
 	LONG $0x01c68348 // add    rsi, 1
 	LONG $0xffc78348 // add    rdi, -1
@@ -5418,16 +5418,16 @@ LBB1_487:
 
 LBB1_488:
 	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
+	WORD $0xc128                 // sub    cl, al
 	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
 	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
+	WORD $0xc128                 // sub    cl, al
 	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
 	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
+	WORD $0xc128                 // sub    cl, al
 	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
 	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
+	WORD $0xc128                 // sub    cl, al
 	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -5583,7 +5583,7 @@ LBB1_509:
 
 LBB1_510:
 	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
+	WORD $0xc100     // add    cl, al
 	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
 	LONG $0x01c68348 // add    rsi, 1
 	LONG $0xffc78348 // add    rdi, -1
@@ -5595,16 +5595,16 @@ LBB1_511:
 
 LBB1_512:
 	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
 	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
 	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
 	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -5642,7 +5642,7 @@ LBB1_517:
 
 LBB1_518:
 	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
 	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
@@ -5654,16 +5654,16 @@ LBB1_519:
 
 LBB1_520:
 	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
 	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
 	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
 	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
 	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
 	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
 	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
 	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -5819,7 +5819,7 @@ LBB1_541:
 
 LBB1_542:
 	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
 	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
@@ -5831,16 +5831,16 @@ LBB1_543:
 
 LBB1_544:
 	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
 	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
 	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
 	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -5874,7 +5874,7 @@ LBB1_549:
 
 LBB1_550:
 	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1     // add    cx, ax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc78348             // add    rdi, -1
@@ -5886,16 +5886,16 @@ LBB1_551:
 
 LBB1_552:
 	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	WORD $0xc129                   // sub    ecx, eax
 	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
 	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	WORD $0xc129                   // sub    ecx, eax
 	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
 	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	WORD $0xc129                   // sub    ecx, eax
 	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
 	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	WORD $0xc129                   // sub    ecx, eax
 	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
@@ -5929,7 +5929,7 @@ LBB1_557:
 
 LBB1_558:
 	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1     // add    cx, ax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc78348             // add    rdi, -1
@@ -5941,16 +5941,16 @@ LBB1_559:
 
 LBB1_560:
 	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	WORD $0xc129                   // sub    ecx, eax
 	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
 	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	WORD $0xc129                   // sub    ecx, eax
 	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
 	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	WORD $0xc129                   // sub    ecx, eax
 	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
 	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc1       // add    cx, ax
+	WORD $0xc129                   // sub    ecx, eax
 	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
@@ -6204,7 +6204,7 @@ LBB1_597:
 
 LBB1_598:
 	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1     // add    cx, ax
 	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc78348             // add    rdi, -1
@@ -6216,16 +6216,16 @@ LBB1_599:
 
 LBB1_600:
 	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
 	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
 	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
 	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
 	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
 	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
 	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
 	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
@@ -6259,7 +6259,7 @@ LBB1_605:
 
 LBB1_606:
 	LONG $0x720cb70f             // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1     // add    cx, ax
 	LONG $0x0c894166; BYTE $0x70 // mov    word [r8 + 2*rsi], cx
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc78348             // add    rdi, -1
@@ -6271,16 +6271,16 @@ LBB1_607:
 
 LBB1_608:
 	LONG $0x720cb70f               // movzx    ecx, word [rdx + 2*rsi]
-	WORD $0xc129                   // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
 	LONG $0x0c894166; BYTE $0x70   // mov    word [r8 + 2*rsi], cx
 	LONG $0x724cb70f; BYTE $0x02   // movzx    ecx, word [rdx + 2*rsi + 2]
-	WORD $0xc129                   // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
 	LONG $0x4c894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], cx
 	LONG $0x724cb70f; BYTE $0x04   // movzx    ecx, word [rdx + 2*rsi + 4]
-	WORD $0xc129                   // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
 	LONG $0x4c894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], cx
 	LONG $0x724cb70f; BYTE $0x06   // movzx    ecx, word [rdx + 2*rsi + 6]
-	WORD $0xc129                   // sub    ecx, eax
+	WORD $0x0166; BYTE $0xc1       // add    cx, ax
 	LONG $0x4c894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], cx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
@@ -6314,7 +6314,7 @@ LBB1_613:
 
 LBB1_614:
 	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
 	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
@@ -6326,16 +6326,16 @@ LBB1_615:
 
 LBB1_616:
 	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
 	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
 	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
 	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
 	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
 	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
 	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
+	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
 	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -6369,7 +6369,7 @@ LBB1_621:
 
 LBB1_622:
 	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8580ff3               // addss    xmm1, xmm0
+	LONG $0xc85c0ff3               // subss    xmm1, xmm0
 	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
 	LONG $0x01c18348               // add    rcx, 1
 	LONG $0xffc78348               // add    rdi, -1
@@ -6381,16 +6381,16 @@ LBB1_623:
 
 LBB1_624:
 	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
 	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
 	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
 	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
 	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
 	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
 	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
 	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
 	LONG $0x04c18348                           // add    rcx, 4
 	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
@@ -6644,7 +6644,7 @@ LBB1_661:
 
 LBB1_662:
 	LONG $0xf20c8b48         // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1 // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1 // add    rcx, rax
 	LONG $0xf00c8949         // mov    qword [r8 + 8*rsi], rcx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
@@ -6656,16 +6656,16 @@ LBB1_663:
 
 LBB1_664:
 	LONG $0xf20c8b48             // mov    rcx, qword [rdx + 8*rsi]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf00c8949             // mov    qword [r8 + 8*rsi], rcx
 	LONG $0xf24c8b48; BYTE $0x08 // mov    rcx, qword [rdx + 8*rsi + 8]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf04c8949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rcx
 	LONG $0xf24c8b48; BYTE $0x10 // mov    rcx, qword [rdx + 8*rsi + 16]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf04c8949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rcx
 	LONG $0xf24c8b48; BYTE $0x18 // mov    rcx, qword [rdx + 8*rsi + 24]
-	WORD $0x2948; BYTE $0xc1     // sub    rcx, rax
+	WORD $0x0148; BYTE $0xc1     // add    rcx, rax
 	LONG $0xf04c8949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rcx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -6699,7 +6699,7 @@ LBB1_669:
 
 LBB1_670:
 	LONG $0x0c100ff3; BYTE $0x8a   // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85c0ff3               // subss    xmm1, xmm0
+	LONG $0xc8580ff3               // addss    xmm1, xmm0
 	LONG $0x110f41f3; WORD $0x880c // movss    dword [r8 + 4*rcx], xmm1
 	LONG $0x01c18348               // add    rcx, 1
 	LONG $0xffc78348               // add    rdi, -1
@@ -6711,16 +6711,16 @@ LBB1_671:
 
 LBB1_672:
 	LONG $0x0c100ff3; BYTE $0x8a               // movss    xmm1, dword [rdx + 4*rcx]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
 	LONG $0x110f41f3; WORD $0x880c             // movss    dword [r8 + 4*rcx], xmm1
 	LONG $0x4c100ff3; WORD $0x048a             // movss    xmm1, dword [rdx + 4*rcx + 4]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
 	LONG $0x110f41f3; WORD $0x884c; BYTE $0x04 // movss    dword [r8 + 4*rcx + 4], xmm1
 	LONG $0x4c100ff3; WORD $0x088a             // movss    xmm1, dword [rdx + 4*rcx + 8]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
 	LONG $0x110f41f3; WORD $0x884c; BYTE $0x08 // movss    dword [r8 + 4*rcx + 8], xmm1
 	LONG $0x4c100ff3; WORD $0x0c8a             // movss    xmm1, dword [rdx + 4*rcx + 12]
-	LONG $0xc85c0ff3                           // subss    xmm1, xmm0
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
 	LONG $0x110f41f3; WORD $0x884c; BYTE $0x0c // movss    dword [r8 + 4*rcx + 12], xmm1
 	LONG $0x04c18348                           // add    rcx, 4
 	WORD $0x3948; BYTE $0xc8                   // cmp    rax, rcx
@@ -6754,7 +6754,7 @@ LBB1_677:
 
 LBB1_678:
 	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100     // add    cl, al
+	WORD $0xc128     // sub    cl, al
 	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
 	LONG $0x01c68348 // add    rsi, 1
 	LONG $0xffc78348 // add    rdi, -1
@@ -6766,16 +6766,16 @@ LBB1_679:
 
 LBB1_680:
 	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc100                 // add    cl, al
+	WORD $0xc128                 // sub    cl, al
 	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
 	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc100                 // add    cl, al
+	WORD $0xc128                 // sub    cl, al
 	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
 	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc100                 // add    cl, al
+	WORD $0xc128                 // sub    cl, al
 	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
 	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc100                 // add    cl, al
+	WORD $0xc128                 // sub    cl, al
 	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -6919,7 +6919,7 @@ LBB1_701:
 
 LBB1_702:
 	LONG $0x320cb60f // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128     // sub    cl, al
+	WORD $0xc100     // add    cl, al
 	LONG $0x300c8841 // mov    byte [r8 + rsi], cl
 	LONG $0x01c68348 // add    rsi, 1
 	LONG $0xffc78348 // add    rdi, -1
@@ -6931,16 +6931,16 @@ LBB1_703:
 
 LBB1_704:
 	LONG $0x320cb60f             // movzx    ecx, byte [rdx + rsi]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x300c8841             // mov    byte [r8 + rsi], cl
 	LONG $0x324cb60f; BYTE $0x01 // movzx    ecx, byte [rdx + rsi + 1]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x304c8841; BYTE $0x01 // mov    byte [r8 + rsi + 1], cl
 	LONG $0x324cb60f; BYTE $0x02 // movzx    ecx, byte [rdx + rsi + 2]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x304c8841; BYTE $0x02 // mov    byte [r8 + rsi + 2], cl
 	LONG $0x324cb60f; BYTE $0x03 // movzx    ecx, byte [rdx + rsi + 3]
-	WORD $0xc128                 // sub    cl, al
+	WORD $0xc100                 // add    cl, al
 	LONG $0x304c8841; BYTE $0x03 // mov    byte [r8 + rsi + 3], cl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -6974,7 +6974,7 @@ LBB1_709:
 
 LBB1_710:
 	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101             // add    ecx, eax
+	WORD $0xc129             // sub    ecx, eax
 	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
@@ -6986,16 +6986,16 @@ LBB1_711:
 
 LBB1_712:
 	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc101                 // add    ecx, eax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc101                 // add    ecx, eax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
 	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc101                 // add    ecx, eax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
 	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc101                 // add    ecx, eax
+	WORD $0xc129                 // sub    ecx, eax
 	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -7139,7 +7139,7 @@ LBB1_733:
 
 LBB1_734:
 	WORD $0x0c8b; BYTE $0xb2 // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129             // sub    ecx, eax
+	WORD $0xc101             // add    ecx, eax
 	LONG $0xb00c8941         // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
@@ -7151,16 +7151,16 @@ LBB1_735:
 
 LBB1_736:
 	WORD $0x0c8b; BYTE $0xb2     // mov    ecx, dword [rdx + 4*rsi]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0xc101                 // add    ecx, eax
 	LONG $0xb00c8941             // mov    dword [r8 + 4*rsi], ecx
 	LONG $0x04b24c8b             // mov    ecx, dword [rdx + 4*rsi + 4]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0xc101                 // add    ecx, eax
 	LONG $0xb04c8941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], ecx
 	LONG $0x08b24c8b             // mov    ecx, dword [rdx + 4*rsi + 8]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0xc101                 // add    ecx, eax
 	LONG $0xb04c8941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], ecx
 	LONG $0x0cb24c8b             // mov    ecx, dword [rdx + 4*rsi + 12]
-	WORD $0xc129                 // sub    ecx, eax
+	WORD $0xc101                 // add    ecx, eax
 	LONG $0xb04c8941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], ecx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
@@ -7186,14 +7186,14 @@ LBB1_297:
 LBB1_299:
 	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
 	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
 	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
 	LONG $0x10c78348                           // add    rdi, 16
@@ -7288,14 +7288,14 @@ LBB1_306:
 LBB1_308:
 	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
 	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
 	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
 	LONG $0x10c78348                           // add    rdi, 16
@@ -7321,14 +7321,14 @@ LBB1_309:
 LBB1_311:
 	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
 	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
 	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
 	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
 	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
 	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
 	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
 	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
 	LONG $0x08c78348                           // add    rdi, 8
@@ -7420,14 +7420,14 @@ LBB1_318:
 LBB1_320:
 	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
 	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
 	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
 	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
 	LONG $0x54100f66; WORD $0x20fa             // movupd    xmm2, oword [rdx + 8*rdi + 32]
 	LONG $0x5c100f66; WORD $0x30fa             // movupd    xmm3, oword [rdx + 8*rdi + 48]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
 	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
 	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
 	LONG $0x08c78348                           // add    rdi, 8
@@ -7456,14 +7456,14 @@ LBB1_321:
 LBB1_323:
 	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
 	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
 	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
 	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
 	LONG $0x40c78348                           // add    rdi, 64
@@ -7564,14 +7564,14 @@ LBB1_330:
 LBB1_332:
 	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
 	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
 	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
 	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
 	LONG $0x40c78348                           // add    rdi, 64
@@ -7598,14 +7598,14 @@ LBB1_333:
 LBB1_335:
 	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
 	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
 	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
 	LONG $0x08c78348                           // add    rdi, 8
@@ -7700,14 +7700,14 @@ LBB1_342:
 LBB1_344:
 	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
 	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
 	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
 	LONG $0x08c78348                           // add    rdi, 8
@@ -7735,14 +7735,14 @@ LBB1_345:
 LBB1_347:
 	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
 	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
 	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
 	LONG $0x20c78348                           // add    rdi, 32
@@ -7770,14 +7770,14 @@ LBB1_348:
 LBB1_350:
 	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
 	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
 	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
 	LONG $0x20c78348                           // add    rdi, 32
@@ -7945,14 +7945,14 @@ LBB1_363:
 LBB1_365:
 	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
 	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
 	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
 	LONG $0x20c78348                           // add    rdi, 32
@@ -7980,14 +7980,14 @@ LBB1_366:
 LBB1_368:
 	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
 	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x207a             // movdqu    xmm1, oword [rdx + 2*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x307a             // movdqu    xmm2, oword [rdx + 2*rdi + 48]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
 	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
 	LONG $0x20c78348                           // add    rdi, 32
@@ -8014,14 +8014,14 @@ LBB1_369:
 LBB1_371:
 	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
 	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
 	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
 	LONG $0x08c78348                           // add    rdi, 8
@@ -8048,14 +8048,14 @@ LBB1_372:
 LBB1_374:
 	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
 	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
 	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
 	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
 	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
 	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
 	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
 	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
 	LONG $0x10c78348               // add    rdi, 16
@@ -8218,14 +8218,14 @@ LBB1_387:
 LBB1_389:
 	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
 	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x20fa             // movdqu    xmm1, oword [rdx + 8*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x30fa             // movdqu    xmm2, oword [rdx + 8*rdi + 48]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
 	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
 	LONG $0x08c78348                           // add    rdi, 8
@@ -8252,14 +8252,14 @@ LBB1_390:
 LBB1_392:
 	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
 	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
 	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
 	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
 	LONG $0xba54100f; BYTE $0x20   // movups    xmm2, oword [rdx + 4*rdi + 32]
 	LONG $0xba5c100f; BYTE $0x30   // movups    xmm3, oword [rdx + 4*rdi + 48]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
 	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
 	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
 	LONG $0x10c78348               // add    rdi, 16
@@ -8288,14 +8288,14 @@ LBB1_393:
 LBB1_395:
 	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
 	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
 	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
 	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
 	LONG $0x40c78348                           // add    rdi, 64
@@ -8396,14 +8396,14 @@ LBB1_402:
 LBB1_404:
 	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
 	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x203a             // movdqu    xmm1, oword [rdx + rdi + 32]
 	LONG $0x546f0ff3; WORD $0x303a             // movdqu    xmm2, oword [rdx + rdi + 48]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
 	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
 	LONG $0x40c78348                           // add    rdi, 64
@@ -8430,14 +8430,14 @@ LBB1_405:
 LBB1_407:
 	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
 	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
 	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
 	LONG $0x10c78348                           // add    rdi, 16
@@ -8532,14 +8532,14 @@ LBB1_414:
 LBB1_416:
 	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
 	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x20ba             // movdqu    xmm1, oword [rdx + 4*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x30ba             // movdqu    xmm2, oword [rdx + 4*rdi + 48]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
 	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
 	LONG $0x10c78348                           // add    rdi, 16
@@ -8555,8 +8555,8 @@ LBB1_418:
 	JE   LBB1_420
 	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
 	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 
@@ -8609,8 +8609,8 @@ LBB1_442:
 	JE   LBB1_444
 	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
 	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 
@@ -8627,8 +8627,8 @@ LBB1_450:
 	JE   LBB1_452
 	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
 	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
+	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
 	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
 	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
 
@@ -8681,8 +8681,8 @@ LBB1_474:
 	JE   LBB1_476
 	LONG $0x14100f66; BYTE $0xfa               // movupd    xmm2, oword [rdx + 8*rdi]
 	LONG $0x5c100f66; WORD $0x10fa             // movupd    xmm3, oword [rdx + 8*rdi + 16]
-	LONG $0xd15c0f66                           // subpd    xmm2, xmm1
-	LONG $0xd95c0f66                           // subpd    xmm3, xmm1
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
 	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
 	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
 
@@ -8699,8 +8699,8 @@ LBB1_482:
 	JE   LBB1_484
 	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
 	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 
@@ -8753,8 +8753,8 @@ LBB1_506:
 	JE   LBB1_508
 	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
 	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 
@@ -8771,8 +8771,8 @@ LBB1_514:
 	JE   LBB1_516
 	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
 	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 
@@ -8825,8 +8825,8 @@ LBB1_538:
 	JE   LBB1_540
 	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
 	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 
@@ -8843,8 +8843,8 @@ LBB1_546:
 	JE   LBB1_548
 	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
 	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
@@ -8861,8 +8861,8 @@ LBB1_554:
 	JE   LBB1_556
 	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
 	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
+	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
@@ -8951,8 +8951,8 @@ LBB1_594:
 	JE   LBB1_596
 	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
 	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
@@ -8969,8 +8969,8 @@ LBB1_602:
 	JE   LBB1_604
 	LONG $0x0c6f0ff3; BYTE $0x7a               // movdqu    xmm1, oword [rdx + 2*rdi]
 	LONG $0x546f0ff3; WORD $0x107a             // movdqu    xmm2, oword [rdx + 2*rdi + 16]
-	LONG $0xc8f90f66                           // psubw    xmm1, xmm0
-	LONG $0xd0f90f66                           // psubw    xmm2, xmm0
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
@@ -8987,8 +8987,8 @@ LBB1_610:
 	JE   LBB1_612
 	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
 	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
+	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 
@@ -9005,8 +9005,8 @@ LBB1_618:
 	JE   LBB1_620
 	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
 	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
 	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
 	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
 
@@ -9095,8 +9095,8 @@ LBB1_658:
 	JE   LBB1_660
 	LONG $0x0c6f0ff3; BYTE $0xfa               // movdqu    xmm1, oword [rdx + 8*rdi]
 	LONG $0x546f0ff3; WORD $0x10fa             // movdqu    xmm2, oword [rdx + 8*rdi + 16]
-	LONG $0xc8fb0f66                           // psubq    xmm1, xmm0
-	LONG $0xd0fb0f66                           // psubq    xmm2, xmm0
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 
@@ -9113,8 +9113,8 @@ LBB1_666:
 	JE   LBB1_668
 	LONG $0xba14100f               // movups    xmm2, oword [rdx + 4*rdi]
 	LONG $0xba5c100f; BYTE $0x10   // movups    xmm3, oword [rdx + 4*rdi + 16]
-	WORD $0x5c0f; BYTE $0xd1       // subps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd9       // subps    xmm3, xmm1
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
 	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
 	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
 
@@ -9131,8 +9131,8 @@ LBB1_674:
 	JE   LBB1_676
 	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
 	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
+	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 
@@ -9185,8 +9185,8 @@ LBB1_698:
 	JE   LBB1_700
 	LONG $0x0c6f0ff3; BYTE $0x3a               // movdqu    xmm1, oword [rdx + rdi]
 	LONG $0x546f0ff3; WORD $0x103a             // movdqu    xmm2, oword [rdx + rdi + 16]
-	LONG $0xc8f80f66                           // psubb    xmm1, xmm0
-	LONG $0xd0f80f66                           // psubb    xmm2, xmm0
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 
@@ -9203,8 +9203,8 @@ LBB1_706:
 	JE   LBB1_708
 	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
 	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
+	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 
@@ -9257,8 +9257,8 @@ LBB1_730:
 	JE   LBB1_732
 	LONG $0x0c6f0ff3; BYTE $0xba               // movdqu    xmm1, oword [rdx + 4*rdi]
 	LONG $0x546f0ff3; WORD $0x10ba             // movdqu    xmm2, oword [rdx + 4*rdi + 16]
-	LONG $0xc8fa0f66                           // psubd    xmm1, xmm0
-	LONG $0xd0fa0f66                           // psubd    xmm2, xmm0
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
 	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
 	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 
@@ -9296,7 +9296,7 @@ TEXT ·_arithmetic_scalar_arr_sse4(SB), $0-48
 	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
 	JB   LBB2_10
@@ -9311,38 +9311,38 @@ LBB2_10:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_421:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_423
 
 LBB2_422:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_422
 
 LBB2_423:
-	LONG $0x03f98349 // cmp    r9, 3
+	LONG $0x03fa8348 // cmp    rdx, 3
 	JB   LBB2_737
 
 LBB2_424:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_424
@@ -9495,7 +9495,7 @@ LBB2_29:
 	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x028b             // mov    eax, dword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
 	JB   LBB2_36
@@ -9510,38 +9510,38 @@ LBB2_36:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_445:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_447
 
 LBB2_446:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_446
 
 LBB2_447:
-	LONG $0x03fa8348 // cmp    rdx, 3
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB2_737
 
 LBB2_448:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_448
@@ -9581,8 +9581,8 @@ LBB2_453:
 	JE   LBB2_455
 
 LBB2_454:
-	LONG $0x0c100ff2; BYTE $0xd1   // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8580ff2               // addsd    xmm1, xmm0
+	LONG $0xc8280f66               // movapd    xmm1, xmm0
+	LONG $0x0c5c0ff2; BYTE $0xd1   // subsd    xmm1, qword [rcx + 8*rdx]
 	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
 	LONG $0x01c28348               // add    rdx, 1
 	LONG $0xffc78348               // add    rdi, -1
@@ -9593,17 +9593,17 @@ LBB2_455:
 	JB   LBB2_737
 
 LBB2_456:
-	LONG $0x0c100ff2; BYTE $0xd1               // movsd    xmm1, qword [rcx + 8*rdx]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x0c5c0ff2; BYTE $0xd1               // subsd    xmm1, qword [rcx + 8*rdx]
 	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0x4c100ff2; WORD $0x08d1             // movsd    xmm1, qword [rcx + 8*rdx + 8]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x08d1             // subsd    xmm1, qword [rcx + 8*rdx + 8]
 	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0x4c100ff2; WORD $0x10d1             // movsd    xmm1, qword [rcx + 8*rdx + 16]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x10d1             // subsd    xmm1, qword [rcx + 8*rdx + 16]
 	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0x4c100ff2; WORD $0x18d1             // movsd    xmm1, qword [rcx + 8*rdx + 24]
-	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
+	LONG $0xc8280f66                           // movapd    xmm1, xmm0
+	LONG $0x4c5c0ff2; WORD $0x18d1             // subsd    xmm1, qword [rcx + 8*rdx + 24]
 	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
 	LONG $0x04c28348                           // add    rdx, 4
 	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
@@ -9770,8 +9770,8 @@ LBB2_477:
 	JE   LBB2_479
 
 LBB2_478:
-	LONG $0xc8280f66               // movapd    xmm1, xmm0
-	LONG $0x0c5c0ff2; BYTE $0xd1   // subsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0x0c100ff2; BYTE $0xd1   // movsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0xc8580ff2               // addsd    xmm1, xmm0
 	LONG $0x110f41f2; WORD $0xd00c // movsd    qword [r8 + 8*rdx], xmm1
 	LONG $0x01c28348               // add    rdx, 1
 	LONG $0xffc78348               // add    rdi, -1
@@ -9782,17 +9782,17 @@ LBB2_479:
 	JB   LBB2_737
 
 LBB2_480:
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x0c5c0ff2; BYTE $0xd1               // subsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0x0c100ff2; BYTE $0xd1               // movsd    xmm1, qword [rcx + 8*rdx]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
 	LONG $0x110f41f2; WORD $0xd00c             // movsd    qword [r8 + 8*rdx], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x08d1             // subsd    xmm1, qword [rcx + 8*rdx + 8]
+	LONG $0x4c100ff2; WORD $0x08d1             // movsd    xmm1, qword [rcx + 8*rdx + 8]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
 	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x08 // movsd    qword [r8 + 8*rdx + 8], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x10d1             // subsd    xmm1, qword [rcx + 8*rdx + 16]
+	LONG $0x4c100ff2; WORD $0x10d1             // movsd    xmm1, qword [rcx + 8*rdx + 16]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
 	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x10 // movsd    qword [r8 + 8*rdx + 16], xmm1
-	LONG $0xc8280f66                           // movapd    xmm1, xmm0
-	LONG $0x4c5c0ff2; WORD $0x18d1             // subsd    xmm1, qword [rcx + 8*rdx + 24]
+	LONG $0x4c100ff2; WORD $0x18d1             // movsd    xmm1, qword [rcx + 8*rdx + 24]
+	LONG $0xc8580ff2                           // addsd    xmm1, xmm0
 	LONG $0x110f41f2; WORD $0xd04c; BYTE $0x18 // movsd    qword [r8 + 8*rdx + 24], xmm1
 	LONG $0x04c28348                           // add    rdx, 4
 	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
@@ -9806,7 +9806,7 @@ LBB2_65:
 	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x028a             // mov    al, byte [rdx]
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
 	JB   LBB2_69
@@ -9821,38 +9821,38 @@ LBB2_69:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_485:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_487
 
 LBB2_486:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_486
 
 LBB2_487:
-	LONG $0x03f98349 // cmp    r9, 3
+	LONG $0x03fa8348 // cmp    rdx, 3
 	JB   LBB2_737
 
 LBB2_488:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_488
@@ -9983,7 +9983,7 @@ LBB2_80:
 	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
+	WORD $0x028a             // mov    al, byte [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
 	JB   LBB2_84
@@ -9998,38 +9998,38 @@ LBB2_84:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_509:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_511
 
 LBB2_510:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
 	JNE  LBB2_510
 
 LBB2_511:
-	LONG $0x03fa8348 // cmp    rdx, 3
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB2_737
 
 LBB2_512:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_512
@@ -10042,7 +10042,7 @@ LBB2_85:
 	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
 	JB   LBB2_89
@@ -10057,38 +10057,38 @@ LBB2_89:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_517:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_519
 
 LBB2_518:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_518
 
 LBB2_519:
-	LONG $0x03f98349 // cmp    r9, 3
+	LONG $0x03fa8348 // cmp    rdx, 3
 	JB   LBB2_737
 
 LBB2_520:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_520
@@ -10219,7 +10219,7 @@ LBB2_100:
 	JNE  LBB2_737
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
 	JB   LBB2_104
@@ -10234,38 +10234,38 @@ LBB2_104:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_541:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_543
 
 LBB2_542:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_542
 
 LBB2_543:
-	LONG $0x03fa8348 // cmp    rdx, 3
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB2_737
 
 LBB2_544:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_544
@@ -10297,8 +10297,8 @@ LBB2_549:
 	JE   LBB2_551
 
 LBB2_550:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2     // add    dx, ax
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
 	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc78348             // add    rdi, -1
@@ -10309,17 +10309,17 @@ LBB2_551:
 	JB   LBB2_737
 
 LBB2_552:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
 	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
 	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
 	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
 	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
@@ -10352,8 +10352,8 @@ LBB2_557:
 	JE   LBB2_559
 
 LBB2_558:
-	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2     // add    dx, ax
+	WORD $0xc289                 // mov    edx, eax
+	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
 	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc78348             // add    rdi, -1
@@ -10364,17 +10364,17 @@ LBB2_559:
 	JB   LBB2_737
 
 LBB2_560:
-	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
 	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
 	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
 	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
-	WORD $0x0166; BYTE $0xc2       // add    dx, ax
+	WORD $0xc289                   // mov    edx, eax
+	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
 	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
@@ -10627,8 +10627,8 @@ LBB2_597:
 	JE   LBB2_599
 
 LBB2_598:
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
+	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2     // add    dx, ax
 	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc78348             // add    rdi, -1
@@ -10639,17 +10639,17 @@ LBB2_599:
 	JB   LBB2_737
 
 LBB2_600:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
 	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
 	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
 	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
 	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
@@ -10682,8 +10682,8 @@ LBB2_605:
 	JE   LBB2_607
 
 LBB2_606:
-	WORD $0xc289                 // mov    edx, eax
-	LONG $0x71142b66             // sub    dx, word [rcx + 2*rsi]
+	LONG $0x7114b70f             // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2     // add    dx, ax
 	LONG $0x14894166; BYTE $0x70 // mov    word [r8 + 2*rsi], dx
 	LONG $0x01c68348             // add    rsi, 1
 	LONG $0xffc78348             // add    rdi, -1
@@ -10694,17 +10694,17 @@ LBB2_607:
 	JB   LBB2_737
 
 LBB2_608:
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71142b66               // sub    dx, word [rcx + 2*rsi]
+	LONG $0x7114b70f               // movzx    edx, word [rcx + 2*rsi]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
 	LONG $0x14894166; BYTE $0x70   // mov    word [r8 + 2*rsi], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x02   // sub    dx, word [rcx + 2*rsi + 2]
+	LONG $0x7154b70f; BYTE $0x02   // movzx    edx, word [rcx + 2*rsi + 2]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
 	LONG $0x54894166; WORD $0x0270 // mov    word [r8 + 2*rsi + 2], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x04   // sub    dx, word [rcx + 2*rsi + 4]
+	LONG $0x7154b70f; BYTE $0x04   // movzx    edx, word [rcx + 2*rsi + 4]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
 	LONG $0x54894166; WORD $0x0470 // mov    word [r8 + 2*rsi + 4], dx
-	WORD $0xc289                   // mov    edx, eax
-	LONG $0x71542b66; BYTE $0x06   // sub    dx, word [rcx + 2*rsi + 6]
+	LONG $0x7154b70f; BYTE $0x06   // movzx    edx, word [rcx + 2*rsi + 6]
+	WORD $0x0166; BYTE $0xc2       // add    dx, ax
 	LONG $0x54894166; WORD $0x0670 // mov    word [r8 + 2*rsi + 6], dx
 	LONG $0x04c68348               // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2       // cmp    r10, rsi
@@ -10714,7 +10714,7 @@ LBB2_608:
 LBB2_129:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
+	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
 	JB   LBB2_131
@@ -10729,38 +10729,38 @@ LBB2_131:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_613:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_615
 
 LBB2_614:
-	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
-	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
+	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
+	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_614
 
 LBB2_615:
-	LONG $0x03f98349 // cmp    r9, 3
+	LONG $0x03fa8348 // cmp    rdx, 3
 	JB   LBB2_737
 
 LBB2_616:
-	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
-	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
-	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
-	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
-	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
-	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
+	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
+	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
+	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
+	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
+	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
+	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_616
@@ -10792,8 +10792,8 @@ LBB2_621:
 	JE   LBB2_623
 
 LBB2_622:
-	LONG $0x0c100ff3; BYTE $0x91   // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8580ff3               // addss    xmm1, xmm0
+	WORD $0x280f; BYTE $0xc8       // movaps    xmm1, xmm0
+	LONG $0x0c5c0ff3; BYTE $0x91   // subss    xmm1, dword [rcx + 4*rdx]
 	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
 	LONG $0x01c28348               // add    rdx, 1
 	LONG $0xffc78348               // add    rdi, -1
@@ -10804,17 +10804,17 @@ LBB2_623:
 	JB   LBB2_737
 
 LBB2_624:
-	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x0c5c0ff3; BYTE $0x91               // subss    xmm1, dword [rcx + 4*rdx]
 	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
-	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x0491             // subss    xmm1, dword [rcx + 4*rdx + 4]
 	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
-	LONG $0x4c100ff3; WORD $0x0891             // movss    xmm1, dword [rcx + 4*rdx + 8]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x0891             // subss    xmm1, dword [rcx + 4*rdx + 8]
 	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
-	LONG $0x4c100ff3; WORD $0x0c91             // movss    xmm1, dword [rcx + 4*rdx + 12]
-	LONG $0xc8580ff3                           // addss    xmm1, xmm0
+	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
+	LONG $0x4c5c0ff3; WORD $0x0c91             // subss    xmm1, dword [rcx + 4*rdx + 12]
 	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
 	LONG $0x04c28348                           // add    rdx, 4
 	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
@@ -11044,7 +11044,7 @@ LBB2_656:
 LBB2_147:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x8b4c; BYTE $0x1a // mov    r11, qword [rdx]
+	WORD $0x8b48; BYTE $0x02 // mov    rax, qword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x04f98341         // cmp    r9d, 4
 	JB   LBB2_149
@@ -11059,38 +11059,38 @@ LBB2_149:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_661:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_663
 
 LBB2_662:
-	WORD $0x894c; BYTE $0xd8 // mov    rax, r11
-	LONG $0xf1042b48         // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949         // mov    qword [r8 + 8*rsi], rax
+	LONG $0xf1148b48         // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2 // add    rdx, rax
+	LONG $0xf0148949         // mov    qword [r8 + 8*rsi], rdx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_662
 
 LBB2_663:
-	LONG $0x03fa8348 // cmp    rdx, 3
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB2_737
 
 LBB2_664:
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1042b48             // sub    rax, qword [rcx + 8*rsi]
-	LONG $0xf0048949             // mov    qword [r8 + 8*rsi], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x08 // sub    rax, qword [rcx + 8*rsi + 8]
-	LONG $0xf0448949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x10 // sub    rax, qword [rcx + 8*rsi + 16]
-	LONG $0xf0448949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rax
-	WORD $0x894c; BYTE $0xd8     // mov    rax, r11
-	LONG $0xf1442b48; BYTE $0x18 // sub    rax, qword [rcx + 8*rsi + 24]
-	LONG $0xf0448949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rax
+	LONG $0xf1148b48             // mov    rdx, qword [rcx + 8*rsi]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0148949             // mov    qword [r8 + 8*rsi], rdx
+	LONG $0xf1548b48; BYTE $0x08 // mov    rdx, qword [rcx + 8*rsi + 8]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x08 // mov    qword [r8 + 8*rsi + 8], rdx
+	LONG $0xf1548b48; BYTE $0x10 // mov    rdx, qword [rcx + 8*rsi + 16]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x10 // mov    qword [r8 + 8*rsi + 16], rdx
+	LONG $0xf1548b48; BYTE $0x18 // mov    rdx, qword [rcx + 8*rsi + 24]
+	WORD $0x0148; BYTE $0xc2     // add    rdx, rax
+	LONG $0xf0548949; BYTE $0x18 // mov    qword [r8 + 8*rsi + 24], rdx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_664
@@ -11122,8 +11122,8 @@ LBB2_669:
 	JE   LBB2_671
 
 LBB2_670:
-	WORD $0x280f; BYTE $0xc8       // movaps    xmm1, xmm0
-	LONG $0x0c5c0ff3; BYTE $0x91   // subss    xmm1, dword [rcx + 4*rdx]
+	LONG $0x0c100ff3; BYTE $0x91   // movss    xmm1, dword [rcx + 4*rdx]
+	LONG $0xc8580ff3               // addss    xmm1, xmm0
 	LONG $0x110f41f3; WORD $0x900c // movss    dword [r8 + 4*rdx], xmm1
 	LONG $0x01c28348               // add    rdx, 1
 	LONG $0xffc78348               // add    rdi, -1
@@ -11134,17 +11134,17 @@ LBB2_671:
 	JB   LBB2_737
 
 LBB2_672:
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x0c5c0ff3; BYTE $0x91               // subss    xmm1, dword [rcx + 4*rdx]
+	LONG $0x0c100ff3; BYTE $0x91               // movss    xmm1, dword [rcx + 4*rdx]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
 	LONG $0x110f41f3; WORD $0x900c             // movss    dword [r8 + 4*rdx], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x0491             // subss    xmm1, dword [rcx + 4*rdx + 4]
+	LONG $0x4c100ff3; WORD $0x0491             // movss    xmm1, dword [rcx + 4*rdx + 4]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
 	LONG $0x110f41f3; WORD $0x904c; BYTE $0x04 // movss    dword [r8 + 4*rdx + 4], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x0891             // subss    xmm1, dword [rcx + 4*rdx + 8]
+	LONG $0x4c100ff3; WORD $0x0891             // movss    xmm1, dword [rcx + 4*rdx + 8]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
 	LONG $0x110f41f3; WORD $0x904c; BYTE $0x08 // movss    dword [r8 + 4*rdx + 8], xmm1
-	WORD $0x280f; BYTE $0xc8                   // movaps    xmm1, xmm0
-	LONG $0x4c5c0ff3; WORD $0x0c91             // subss    xmm1, dword [rcx + 4*rdx + 12]
+	LONG $0x4c100ff3; WORD $0x0c91             // movss    xmm1, dword [rcx + 4*rdx + 12]
+	LONG $0xc8580ff3                           // addss    xmm1, xmm0
 	LONG $0x110f41f3; WORD $0x904c; BYTE $0x0c // movss    dword [r8 + 4*rdx + 12], xmm1
 	LONG $0x04c28348                           // add    rdx, 4
 	WORD $0x3948; BYTE $0xd0                   // cmp    rax, rdx
@@ -11154,7 +11154,7 @@ LBB2_672:
 LBB2_153:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x028a             // mov    al, byte [rdx]
+	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
 	JB   LBB2_155
@@ -11168,39 +11168,39 @@ LBB2_153:
 LBB2_155:
 	WORD $0xf631 // xor    esi, esi
 
-LBB2_677:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+LBB2_677:
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_679
 
 LBB2_678:
-	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200     // add    dl, al
-	LONG $0x30148841 // mov    byte [r8 + rsi], dl
-	LONG $0x01c68348 // add    rsi, 1
-	LONG $0xffc78348 // add    rdi, -1
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
+	LONG $0x30048841         // mov    byte [r8 + rsi], al
+	LONG $0x01c68348         // add    rsi, 1
+	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_678
 
 LBB2_679:
-	LONG $0x03f98349 // cmp    r9, 3
+	LONG $0x03fa8348 // cmp    rdx, 3
 	JB   LBB2_737
 
 LBB2_680:
-	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30148841             // mov    byte [r8 + rsi], dl
-	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
-	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
-	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
-	WORD $0xc200                 // add    dl, al
-	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
+	LONG $0x30048841             // mov    byte [r8 + rsi], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
+	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
+	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
+	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_680
@@ -11319,7 +11319,7 @@ LBB2_696:
 LBB2_162:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x8a44; BYTE $0x1a // mov    r11b, byte [rdx]
+	WORD $0x028a             // mov    al, byte [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x20f98341         // cmp    r9d, 32
 	JB   LBB2_164
@@ -11334,38 +11334,38 @@ LBB2_164:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_701:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_703
 
 LBB2_702:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31 // sub    al, byte [rcx + rsi]
-	LONG $0x30048841         // mov    byte [r8 + rsi], al
-	LONG $0x01c68348         // add    rsi, 1
-	LONG $0xffc78348         // add    rdi, -1
+	LONG $0x3114b60f // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200     // add    dl, al
+	LONG $0x30148841 // mov    byte [r8 + rsi], dl
+	LONG $0x01c68348 // add    rsi, 1
+	LONG $0xffc78348 // add    rdi, -1
 	JNE  LBB2_702
 
 LBB2_703:
-	LONG $0x03fa8348 // cmp    rdx, 3
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB2_737
 
 LBB2_704:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042a; BYTE $0x31     // sub    al, byte [rcx + rsi]
-	LONG $0x30048841             // mov    byte [r8 + rsi], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0131442a             // sub    al, byte [rcx + rsi + 1]
-	LONG $0x30448841; BYTE $0x01 // mov    byte [r8 + rsi + 1], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0231442a             // sub    al, byte [rcx + rsi + 2]
-	LONG $0x30448841; BYTE $0x02 // mov    byte [r8 + rsi + 2], al
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0331442a             // sub    al, byte [rcx + rsi + 3]
-	LONG $0x30448841; BYTE $0x03 // mov    byte [r8 + rsi + 3], al
+	LONG $0x3114b60f             // movzx    edx, byte [rcx + rsi]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30148841             // mov    byte [r8 + rsi], dl
+	LONG $0x3154b60f; BYTE $0x01 // movzx    edx, byte [rcx + rsi + 1]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x01 // mov    byte [r8 + rsi + 1], dl
+	LONG $0x3154b60f; BYTE $0x02 // movzx    edx, byte [rcx + rsi + 2]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x02 // mov    byte [r8 + rsi + 2], dl
+	LONG $0x3154b60f; BYTE $0x03 // movzx    edx, byte [rcx + rsi + 3]
+	WORD $0xc200                 // add    dl, al
+	LONG $0x30548841; BYTE $0x03 // mov    byte [r8 + rsi + 3], dl
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_704
@@ -11374,7 +11374,7 @@ LBB2_704:
 LBB2_165:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x028b             // mov    eax, dword [rdx]
+	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
 	JB   LBB2_167
@@ -11389,38 +11389,38 @@ LBB2_167:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_709:
-	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
-	WORD $0xf749; BYTE $0xd1 // not    r9
-	WORD $0x014d; BYTE $0xd1 // add    r9, r10
+	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
+	WORD $0xf748; BYTE $0xd2 // not    rdx
+	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_711
 
 LBB2_710:
-	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201             // add    edx, eax
-	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
+	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_710
 
 LBB2_711:
-	LONG $0x03f98349 // cmp    r9, 3
+	LONG $0x03fa8348 // cmp    rdx, 3
 	JB   LBB2_737
 
 LBB2_712:
-	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
-	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
-	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
-	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
-	WORD $0xc201                 // add    edx, eax
-	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
+	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
+	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
+	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
+	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
+	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
+	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_712
@@ -11539,7 +11539,7 @@ LBB2_728:
 LBB2_174:
 	WORD $0x8545; BYTE $0xc9 // test    r9d, r9d
 	JLE  LBB2_737
-	WORD $0x8b44; BYTE $0x1a // mov    r11d, dword [rdx]
+	WORD $0x028b             // mov    eax, dword [rdx]
 	WORD $0x8945; BYTE $0xca // mov    r10d, r9d
 	LONG $0x08f98341         // cmp    r9d, 8
 	JB   LBB2_176
@@ -11554,38 +11554,38 @@ LBB2_176:
 	WORD $0xf631 // xor    esi, esi
 
 LBB2_733:
-	WORD $0x8948; BYTE $0xf2 // mov    rdx, rsi
-	WORD $0xf748; BYTE $0xd2 // not    rdx
-	WORD $0x014c; BYTE $0xd2 // add    rdx, r10
+	WORD $0x8949; BYTE $0xf1 // mov    r9, rsi
+	WORD $0xf749; BYTE $0xd1 // not    r9
+	WORD $0x014d; BYTE $0xd1 // add    r9, r10
 	WORD $0x894c; BYTE $0xd7 // mov    rdi, r10
 	LONG $0x03e78348         // and    rdi, 3
 	JE   LBB2_735
 
 LBB2_734:
-	WORD $0x8944; BYTE $0xd8 // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1 // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941         // mov    dword [r8 + 4*rsi], eax
+	WORD $0x148b; BYTE $0xb1 // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201             // add    edx, eax
+	LONG $0xb0148941         // mov    dword [r8 + 4*rsi], edx
 	LONG $0x01c68348         // add    rsi, 1
 	LONG $0xffc78348         // add    rdi, -1
 	JNE  LBB2_734
 
 LBB2_735:
-	LONG $0x03fa8348 // cmp    rdx, 3
+	LONG $0x03f98349 // cmp    r9, 3
 	JB   LBB2_737
 
 LBB2_736:
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	WORD $0x042b; BYTE $0xb1     // sub    eax, dword [rcx + 4*rsi]
-	LONG $0xb0048941             // mov    dword [r8 + 4*rsi], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x04b1442b             // sub    eax, dword [rcx + 4*rsi + 4]
-	LONG $0xb0448941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x08b1442b             // sub    eax, dword [rcx + 4*rsi + 8]
-	LONG $0xb0448941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], eax
-	WORD $0x8944; BYTE $0xd8     // mov    eax, r11d
-	LONG $0x0cb1442b             // sub    eax, dword [rcx + 4*rsi + 12]
-	LONG $0xb0448941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], eax
+	WORD $0x148b; BYTE $0xb1     // mov    edx, dword [rcx + 4*rsi]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0148941             // mov    dword [r8 + 4*rsi], edx
+	LONG $0x04b1548b             // mov    edx, dword [rcx + 4*rsi + 4]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x04 // mov    dword [r8 + 4*rsi + 4], edx
+	LONG $0x08b1548b             // mov    edx, dword [rcx + 4*rsi + 8]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x08 // mov    dword [r8 + 4*rsi + 8], edx
+	LONG $0x0cb1548b             // mov    edx, dword [rcx + 4*rsi + 12]
+	WORD $0xc201                 // add    edx, eax
+	LONG $0xb0548941; BYTE $0x0c // mov    dword [r8 + 4*rsi + 12], edx
 	LONG $0x04c68348             // add    rsi, 4
 	WORD $0x3949; BYTE $0xf2     // cmp    r10, rsi
 	JNE  LBB2_736
@@ -11594,7 +11594,7 @@ LBB2_736:
 LBB2_297:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
 	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
 	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
@@ -11610,16 +11610,20 @@ LBB2_297:
 LBB2_299:
 	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
 	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
 	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
 	LONG $0x10c78348                           // add    rdi, 16
 	LONG $0x02c28348                           // add    rdx, 2
 	JNE  LBB2_299
@@ -11700,7 +11704,7 @@ LBB2_305:
 LBB2_306:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
+	LONG $0xc06e0f66             // movd    xmm0, eax
 	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
 	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
@@ -11716,20 +11720,16 @@ LBB2_306:
 LBB2_308:
 	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
 	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
 	LONG $0x10c78348                           // add    rdi, 16
 	LONG $0x02c28348                           // add    rdx, 2
 	JNE  LBB2_308
@@ -11753,16 +11753,20 @@ LBB2_309:
 LBB2_311:
 	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
 	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xd1280f66                           // movapd    xmm2, xmm1
+	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
+	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm2
 	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
 	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xd1280f66                           // movapd    xmm2, xmm1
+	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
+	LONG $0x110f4166; WORD $0xf864; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm4
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm2
 	LONG $0x08c78348                           // add    rdi, 8
 	LONG $0x02c68348                           // add    rsi, 2
 	JNE  LBB2_311
@@ -11856,20 +11860,16 @@ LBB2_318:
 LBB2_320:
 	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
 	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xd1280f66                           // movapd    xmm2, xmm1
-	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
-	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
 	LONG $0x54100f66; WORD $0x20f9             // movupd    xmm2, oword [rcx + 8*rdi + 32]
 	LONG $0x5c100f66; WORD $0x30f9             // movupd    xmm3, oword [rcx + 8*rdi + 48]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xd1280f66                           // movapd    xmm2, xmm1
-	LONG $0xd35c0f66                           // subpd    xmm2, xmm3
-	LONG $0x110f4166; WORD $0xf864; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm4
-	LONG $0x110f4166; WORD $0xf854; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf854; BYTE $0x20 // movupd    oword [r8 + 8*rdi + 32], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x30 // movupd    oword [r8 + 8*rdi + 48], xmm3
 	LONG $0x08c78348                           // add    rdi, 8
 	LONG $0x02c68348                           // add    rsi, 2
 	JNE  LBB2_320
@@ -11878,7 +11878,7 @@ LBB2_320:
 LBB2_321:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
+	LONG $0xd3b60f41             // movzx    edx, r11b
 	LONG $0xc26e0f66             // movd    xmm0, edx
 	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
 	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
@@ -11896,16 +11896,20 @@ LBB2_321:
 LBB2_323:
 	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
 	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
 	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
 	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
 	LONG $0x40c78348                           // add    rdi, 64
 	LONG $0x02c28348                           // add    rdx, 2
 	JNE  LBB2_323
@@ -11990,7 +11994,7 @@ LBB2_329:
 LBB2_330:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xd3b60f41             // movzx    edx, r11b
+	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
 	LONG $0xc26e0f66             // movd    xmm0, edx
 	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
 	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
@@ -12008,20 +12012,16 @@ LBB2_330:
 LBB2_332:
 	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
 	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
 	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
 	LONG $0x40c78348                           // add    rdi, 64
 	LONG $0x02c28348                           // add    rdx, 2
 	JNE  LBB2_332
@@ -12030,7 +12030,7 @@ LBB2_332:
 LBB2_333:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
 	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
 	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
@@ -12046,16 +12046,20 @@ LBB2_333:
 LBB2_335:
 	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
 	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
 	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
 	LONG $0x08c78348                           // add    rdi, 8
 	LONG $0x02c28348                           // add    rdx, 2
 	JNE  LBB2_335
@@ -12136,7 +12140,7 @@ LBB2_341:
 LBB2_342:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
 	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
 	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
@@ -12152,20 +12156,16 @@ LBB2_342:
 LBB2_344:
 	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
 	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
 	LONG $0x08c78348                           // add    rdi, 8
 	LONG $0x02c28348                           // add    rdx, 2
 	JNE  LBB2_344
@@ -12191,16 +12191,20 @@ LBB2_345:
 LBB2_347:
 	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
 	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
 	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
 	LONG $0x20c78348                           // add    rdi, 32
 	LONG $0x02c28348                           // add    rdx, 2
 	JNE  LBB2_347
@@ -12226,16 +12230,20 @@ LBB2_348:
 LBB2_350:
 	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
 	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
 	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
 	LONG $0x20c78348                           // add    rdi, 32
 	LONG $0x02c28348                           // add    rdx, 2
 	JNE  LBB2_350
@@ -12409,20 +12417,16 @@ LBB2_363:
 LBB2_365:
 	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
 	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
 	LONG $0x20c78348                           // add    rdi, 32
 	LONG $0x02c28348                           // add    rdx, 2
 	JNE  LBB2_365
@@ -12448,20 +12452,16 @@ LBB2_366:
 LBB2_368:
 	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
 	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm1
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x2079             // movdqu    xmm1, oword [rcx + 2*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x3079             // movdqu    xmm2, oword [rcx + 2*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf90f66                           // psubw    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x785c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm1
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x784c; BYTE $0x20 // movdqu    oword [r8 + 2*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x30 // movdqu    oword [r8 + 2*rdi + 48], xmm2
 	LONG $0x20c78348                           // add    rdi, 32
 	LONG $0x02c28348                           // add    rdx, 2
 	JNE  LBB2_368
@@ -12470,7 +12470,7 @@ LBB2_368:
 LBB2_369:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
+	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
 	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
 	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
@@ -12486,16 +12486,20 @@ LBB2_369:
 LBB2_371:
 	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
 	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
 	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
 	LONG $0x08c78348                           // add    rdi, 8
 	LONG $0x02c28348                           // add    rdx, 2
 	JNE  LBB2_371
@@ -12520,16 +12524,20 @@ LBB2_372:
 LBB2_374:
 	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
 	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
+	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
+	LONG $0x54110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm2
 	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
 	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
-	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
+	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
+	LONG $0x64110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm4
+	LONG $0x54110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm2
 	LONG $0x10c78348               // add    rdi, 16
 	LONG $0x02c68348               // add    rsi, 2
 	JNE  LBB2_374
@@ -12682,7 +12690,7 @@ LBB2_386:
 LBB2_387:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xfc     // and    esi, -4
-	LONG $0x6e0f4966; BYTE $0xc3 // movq    xmm0, r11
+	LONG $0x6e0f4866; BYTE $0xc0 // movq    xmm0, rax
 	LONG $0xc0700f66; BYTE $0x44 // pshufd    xmm0, xmm0, 68
 	LONG $0xfc568d48             // lea    rdx, [rsi - 4]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
@@ -12698,20 +12706,16 @@ LBB2_387:
 LBB2_389:
 	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
 	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x20f9             // movdqu    xmm1, oword [rcx + 8*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x30f9             // movdqu    xmm2, oword [rcx + 8*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafb0f66                           // psubq    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xf85c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm1
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf84c; BYTE $0x20 // movdqu    oword [r8 + 8*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x30 // movdqu    oword [r8 + 8*rdi + 48], xmm2
 	LONG $0x08c78348                           // add    rdi, 8
 	LONG $0x02c28348                           // add    rdx, 2
 	JNE  LBB2_389
@@ -12736,20 +12740,16 @@ LBB2_390:
 LBB2_392:
 	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
 	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
-	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
-	LONG $0x54110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm2
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
 	LONG $0xb954100f; BYTE $0x20   // movups    xmm2, oword [rcx + 4*rdi + 32]
 	LONG $0xb95c100f; BYTE $0x30   // movups    xmm3, oword [rcx + 4*rdi + 48]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x280f; BYTE $0xd1       // movaps    xmm2, xmm1
-	WORD $0x5c0f; BYTE $0xd3       // subps    xmm2, xmm3
-	LONG $0x64110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm4
-	LONG $0x54110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm2
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x54110f41; WORD $0x20b8 // movups    oword [r8 + 4*rdi + 32], xmm2
+	LONG $0x5c110f41; WORD $0x30b8 // movups    oword [r8 + 4*rdi + 48], xmm3
 	LONG $0x10c78348               // add    rdi, 16
 	LONG $0x02c68348               // add    rsi, 2
 	JNE  LBB2_392
@@ -12758,7 +12758,7 @@ LBB2_392:
 LBB2_393:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
+	LONG $0xd3b60f41             // movzx    edx, r11b
 	LONG $0xc26e0f66             // movd    xmm0, edx
 	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
 	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
@@ -12776,16 +12776,20 @@ LBB2_393:
 LBB2_395:
 	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
 	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
 	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
 	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
 	LONG $0x40c78348                           // add    rdi, 64
 	LONG $0x02c28348                           // add    rdx, 2
 	JNE  LBB2_395
@@ -12870,7 +12874,7 @@ LBB2_401:
 LBB2_402:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xe0     // and    esi, -32
-	LONG $0xd3b60f41             // movzx    edx, r11b
+	WORD $0xb60f; BYTE $0xd0     // movzx    edx, al
 	LONG $0xc26e0f66             // movd    xmm0, edx
 	LONG $0xc9ef0f66             // pxor    xmm1, xmm1
 	LONG $0x00380f66; BYTE $0xc1 // pshufb    xmm0, xmm1
@@ -12888,20 +12892,16 @@ LBB2_402:
 LBB2_404:
 	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
 	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm1
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x2039             // movdqu    xmm1, oword [rcx + rdi + 32]
 	LONG $0x546f0ff3; WORD $0x3039             // movdqu    xmm2, oword [rcx + rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcaf80f66                           // psubb    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0x385c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm1
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x384c; BYTE $0x20 // movdqu    oword [r8 + rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x30 // movdqu    oword [r8 + rdi + 48], xmm2
 	LONG $0x40c78348                           // add    rdi, 64
 	LONG $0x02c28348                           // add    rdx, 2
 	JNE  LBB2_404
@@ -12910,7 +12910,7 @@ LBB2_404:
 LBB2_405:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0xc06e0f66             // movd    xmm0, eax
+	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
 	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
 	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
@@ -12926,16 +12926,20 @@ LBB2_405:
 LBB2_407:
 	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
 	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
 	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
+	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
+	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
 	LONG $0x10c78348                           // add    rdi, 16
 	LONG $0x02c28348                           // add    rdx, 2
 	JNE  LBB2_407
@@ -13016,7 +13020,7 @@ LBB2_413:
 LBB2_414:
 	WORD $0x8944; BYTE $0xd6     // mov    esi, r10d
 	WORD $0xe683; BYTE $0xf8     // and    esi, -8
-	LONG $0x6e0f4166; BYTE $0xc3 // movd    xmm0, r11d
+	LONG $0xc06e0f66             // movd    xmm0, eax
 	LONG $0xc0700f66; BYTE $0x00 // pshufd    xmm0, xmm0, 0
 	LONG $0xf8568d48             // lea    rdx, [rsi - 8]
 	WORD $0x8949; BYTE $0xd1     // mov    r9, rdx
@@ -13032,20 +13036,16 @@ LBB2_414:
 LBB2_416:
 	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
 	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm1
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 	LONG $0x4c6f0ff3; WORD $0x20b9             // movdqu    xmm1, oword [rcx + 4*rdi + 32]
 	LONG $0x546f0ff3; WORD $0x30b9             // movdqu    xmm2, oword [rcx + 4*rdi + 48]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc86f0f66                           // movdqa    xmm1, xmm0
-	LONG $0xcafa0f66                           // psubd    xmm1, xmm2
-	LONG $0x7f0f41f3; WORD $0xb85c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm3
-	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm1
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb84c; BYTE $0x20 // movdqu    oword [r8 + 4*rdi + 32], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x30 // movdqu    oword [r8 + 4*rdi + 48], xmm2
 	LONG $0x10c78348                           // add    rdi, 16
 	LONG $0x02c28348                           // add    rdx, 2
 	JNE  LBB2_416
@@ -13059,10 +13059,11 @@ LBB2_418:
 	JE   LBB2_420
 	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
 	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
 
 LBB2_420:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
@@ -13114,11 +13115,10 @@ LBB2_442:
 	JE   LBB2_444
 	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
 	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 
 LBB2_444:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
@@ -13133,10 +13133,11 @@ LBB2_450:
 	JE   LBB2_452
 	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
 	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xd1580f66                           // addpd    xmm2, xmm1
-	LONG $0xd9580f66                           // addpd    xmm3, xmm1
-	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
-	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
+	LONG $0xe1280f66                           // movapd    xmm4, xmm1
+	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
+	LONG $0xcb5c0f66                           // subpd    xmm1, xmm3
+	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
+	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
 
 LBB2_452:
 	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
@@ -13188,11 +13189,10 @@ LBB2_474:
 	JE   LBB2_476
 	LONG $0x14100f66; BYTE $0xf9               // movupd    xmm2, oword [rcx + 8*rdi]
 	LONG $0x5c100f66; WORD $0x10f9             // movupd    xmm3, oword [rcx + 8*rdi + 16]
-	LONG $0xe1280f66                           // movapd    xmm4, xmm1
-	LONG $0xe25c0f66                           // subpd    xmm4, xmm2
-	LONG $0xcb5c0f66                           // subpd    xmm1, xmm3
-	LONG $0x110f4166; WORD $0xf824             // movupd    oword [r8 + 8*rdi], xmm4
-	LONG $0x110f4166; WORD $0xf84c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm1
+	LONG $0xd1580f66                           // addpd    xmm2, xmm1
+	LONG $0xd9580f66                           // addpd    xmm3, xmm1
+	LONG $0x110f4166; WORD $0xf814             // movupd    oword [r8 + 8*rdi], xmm2
+	LONG $0x110f4166; WORD $0xf85c; BYTE $0x10 // movupd    oword [r8 + 8*rdi + 16], xmm3
 
 LBB2_476:
 	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
@@ -13207,10 +13207,11 @@ LBB2_482:
 	JE   LBB2_484
 	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
 	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
 
 LBB2_484:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
@@ -13262,11 +13263,10 @@ LBB2_506:
 	JE   LBB2_508
 	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
 	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 
 LBB2_508:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
@@ -13281,10 +13281,11 @@ LBB2_514:
 	JE   LBB2_516
 	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
 	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
 
 LBB2_516:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
@@ -13336,11 +13337,10 @@ LBB2_538:
 	JE   LBB2_540
 	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
 	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 
 LBB2_540:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
@@ -13355,10 +13355,11 @@ LBB2_546:
 	JE   LBB2_548
 	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
 	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
 
 LBB2_548:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
@@ -13373,10 +13374,11 @@ LBB2_554:
 	JE   LBB2_556
 	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
 	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
-	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
+	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
 
 LBB2_556:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
@@ -13465,11 +13467,10 @@ LBB2_594:
 	JE   LBB2_596
 	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
 	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
 LBB2_596:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
@@ -13484,11 +13485,10 @@ LBB2_602:
 	JE   LBB2_604
 	LONG $0x0c6f0ff3; BYTE $0x79               // movdqu    xmm1, oword [rcx + 2*rdi]
 	LONG $0x546f0ff3; WORD $0x1079             // movdqu    xmm2, oword [rcx + 2*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f90f66                           // psubw    xmm3, xmm1
-	LONG $0xc2f90f66                           // psubw    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x781c             // movdqu    oword [r8 + 2*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x7844; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm0
+	LONG $0xc8fd0f66                           // paddw    xmm1, xmm0
+	LONG $0xd0fd0f66                           // paddw    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x780c             // movdqu    oword [r8 + 2*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x7854; BYTE $0x10 // movdqu    oword [r8 + 2*rdi + 16], xmm2
 
 LBB2_604:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
@@ -13503,10 +13503,11 @@ LBB2_610:
 	JE   LBB2_612
 	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
 	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
-	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
+	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
 
 LBB2_612:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
@@ -13521,10 +13522,11 @@ LBB2_618:
 	JE   LBB2_620
 	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
 	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
-	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
-	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
-	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
+	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
+	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
+	WORD $0x5c0f; BYTE $0xcb       // subps    xmm1, xmm3
+	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
+	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
 
 LBB2_620:
 	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
@@ -13613,11 +13615,10 @@ LBB2_658:
 	JE   LBB2_660
 	LONG $0x0c6f0ff3; BYTE $0xf9               // movdqu    xmm1, oword [rcx + 8*rdi]
 	LONG $0x546f0ff3; WORD $0x10f9             // movdqu    xmm2, oword [rcx + 8*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fb0f66                           // psubq    xmm3, xmm1
-	LONG $0xc2fb0f66                           // psubq    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xf81c             // movdqu    oword [r8 + 8*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xf844; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm0
+	LONG $0xc8d40f66                           // paddq    xmm1, xmm0
+	LONG $0xd0d40f66                           // paddq    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xf80c             // movdqu    oword [r8 + 8*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xf854; BYTE $0x10 // movdqu    oword [r8 + 8*rdi + 16], xmm2
 
 LBB2_660:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
@@ -13632,11 +13633,10 @@ LBB2_666:
 	JE   LBB2_668
 	LONG $0xb914100f               // movups    xmm2, oword [rcx + 4*rdi]
 	LONG $0xb95c100f; BYTE $0x10   // movups    xmm3, oword [rcx + 4*rdi + 16]
-	WORD $0x280f; BYTE $0xe1       // movaps    xmm4, xmm1
-	WORD $0x5c0f; BYTE $0xe2       // subps    xmm4, xmm2
-	WORD $0x5c0f; BYTE $0xcb       // subps    xmm1, xmm3
-	LONG $0x24110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm4
-	LONG $0x4c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm1
+	WORD $0x580f; BYTE $0xd1       // addps    xmm2, xmm1
+	WORD $0x580f; BYTE $0xd9       // addps    xmm3, xmm1
+	LONG $0x14110f41; BYTE $0xb8   // movups    oword [r8 + 4*rdi], xmm2
+	LONG $0x5c110f41; WORD $0x10b8 // movups    oword [r8 + 4*rdi + 16], xmm3
 
 LBB2_668:
 	WORD $0x3948; BYTE $0xc2 // cmp    rdx, rax
@@ -13651,10 +13651,11 @@ LBB2_674:
 	JE   LBB2_676
 	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
 	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
-	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
+	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
 
 LBB2_676:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
@@ -13706,11 +13707,10 @@ LBB2_698:
 	JE   LBB2_700
 	LONG $0x0c6f0ff3; BYTE $0x39               // movdqu    xmm1, oword [rcx + rdi]
 	LONG $0x546f0ff3; WORD $0x1039             // movdqu    xmm2, oword [rcx + rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9f80f66                           // psubb    xmm3, xmm1
-	LONG $0xc2f80f66                           // psubb    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0x381c             // movdqu    oword [r8 + rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0x3844; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm0
+	LONG $0xc8fc0f66                           // paddb    xmm1, xmm0
+	LONG $0xd0fc0f66                           // paddb    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0x380c             // movdqu    oword [r8 + rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0x3854; BYTE $0x10 // movdqu    oword [r8 + rdi + 16], xmm2
 
 LBB2_700:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
@@ -13725,10 +13725,11 @@ LBB2_706:
 	JE   LBB2_708
 	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
 	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
-	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
-	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
-	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
+	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
+	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
+	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
+	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
+	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
 
 LBB2_708:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
@@ -13780,11 +13781,10 @@ LBB2_730:
 	JE   LBB2_732
 	LONG $0x0c6f0ff3; BYTE $0xb9               // movdqu    xmm1, oword [rcx + 4*rdi]
 	LONG $0x546f0ff3; WORD $0x10b9             // movdqu    xmm2, oword [rcx + 4*rdi + 16]
-	LONG $0xd86f0f66                           // movdqa    xmm3, xmm0
-	LONG $0xd9fa0f66                           // psubd    xmm3, xmm1
-	LONG $0xc2fa0f66                           // psubd    xmm0, xmm2
-	LONG $0x7f0f41f3; WORD $0xb81c             // movdqu    oword [r8 + 4*rdi], xmm3
-	LONG $0x7f0f41f3; WORD $0xb844; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm0
+	LONG $0xc8fe0f66                           // paddd    xmm1, xmm0
+	LONG $0xd0fe0f66                           // paddd    xmm2, xmm0
+	LONG $0x7f0f41f3; WORD $0xb80c             // movdqu    oword [r8 + 4*rdi], xmm1
+	LONG $0x7f0f41f3; WORD $0xb854; BYTE $0x10 // movdqu    oword [r8 + 4*rdi + 16], xmm2
 
 LBB2_732:
 	WORD $0x394c; BYTE $0xd6 // cmp    rsi, r10
diff --git a/go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go b/go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go
index 8f73f044768..a98781ffd7d 100644
--- a/go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go
+++ b/go/arrow/compute/internal/kernels/basic_arithmetic_noasm.go
@@ -23,10 +23,10 @@ import (
 	"golang.org/x/exp/constraints"
 )
 
-func getArithmeticBinaryOpsFloating[T constraints.Float](op ArithmeticOp) binaryOps[T, T, T] {
-	return getGoArithmeticBinaryOps[T](op)
+func getArithmeticBinaryOpFloating[T constraints.Float](op ArithmeticOp) exec.ArrayKernelExec {
+	return getGoArithmeticBinaryOpFloating[T](op)
 }
 
-func getArithmeticBinaryOpsIntegral[T exec.UintTypes | exec.IntTypes](op ArithmeticOp) binaryOps[T, T, T] {
-	return getGoArithmeticBinaryOps[T](op)
+func getArithmeticBinaryOpIntegral[T exec.UintTypes | exec.IntTypes](op ArithmeticOp) exec.ArrayKernelExec {
+	return getGoArithmeticBinaryOpIntegral[T](op)
 }
diff --git a/go/arrow/compute/internal/kernels/helpers.go b/go/arrow/compute/internal/kernels/helpers.go
index b90399e18e8..3803f627951 100644
--- a/go/arrow/compute/internal/kernels/helpers.go
+++ b/go/arrow/compute/internal/kernels/helpers.go
@@ -223,8 +223,90 @@ func ScalarBinary[OutT, Arg0T, Arg1T exec.FixedWidthTypes](ops binaryOps[OutT, A
 	}
 }
 
-func ScalarBinaryEqualTypes[OutT, ArgT exec.FixedWidthTypes](ops binaryOps[OutT, ArgT, ArgT]) exec.ArrayKernelExec {
-	return ScalarBinary(ops)
+func ScalarBinaryNotNull[OutT, Arg0T, Arg1T exec.FixedWidthTypes](op func(*exec.KernelCtx, Arg0T, Arg1T, *error) OutT) exec.ArrayKernelExec {
+	arrayArray := func(ctx *exec.KernelCtx, arg0, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
+		var (
+			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
+			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
+			outData = exec.GetSpanValues[OutT](out, 1)
+			outPos  int64
+			err     error
+			def     OutT
+		)
+		bitutils.VisitTwoBitBlocks(arg0.Buffers[0].Buf, arg1.Buffers[0].Buf, arg0.Offset, arg1.Offset, out.Len,
+			func(pos int64) {
+				outData[outPos] = op(ctx, a0[pos], a1[pos], &err)
+				outPos++
+			}, func() {
+				outData[outPos] = def
+				outPos++
+			})
+		return err
+	}
+
+	arrayScalar := func(ctx *exec.KernelCtx, arg0 *exec.ArraySpan, arg1 scalar.Scalar, out *exec.ExecResult) error {
+		var (
+			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
+			outData = exec.GetSpanValues[OutT](out, 1)
+			outPos  int64
+			err     error
+			def     OutT
+		)
+		if !arg1.IsValid() {
+			return nil
+		}
+
+		a1 := UnboxScalar[Arg1T](arg1.(scalar.PrimitiveScalar))
+		bitutils.VisitBitBlocks(arg0.Buffers[0].Buf, arg0.Offset, arg0.Len,
+			func(pos int64) {
+				outData[outPos] = op(ctx, a0[pos], a1, &err)
+				outPos++
+			}, func() {
+				outData[outPos] = def
+				outPos++
+			})
+		return err
+	}
+
+	scalarArray := func(ctx *exec.KernelCtx, arg0 scalar.Scalar, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
+		var (
+			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
+			outData = exec.GetSpanValues[OutT](out, 1)
+			outPos  int64
+			err     error
+			def     OutT
+		)
+		if !arg0.IsValid() {
+			return nil
+		}
+
+		a0 := UnboxScalar[Arg0T](arg0.(scalar.PrimitiveScalar))
+		bitutils.VisitBitBlocks(arg1.Buffers[0].Buf, arg1.Offset, arg1.Len,
+			func(pos int64) {
+				outData[outPos] = op(ctx, a0, a1[pos], &err)
+				outPos++
+			}, func() {
+				outData[outPos] = def
+				outPos++
+			})
+		return err
+	}
+
+	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {
+		if batch.Values[0].IsArray() {
+			if batch.Values[1].IsArray() {
+				return arrayArray(ctx, &batch.Values[0].Array, &batch.Values[1].Array, out)
+			}
+			return arrayScalar(ctx, &batch.Values[0].Array, batch.Values[1].Scalar, out)
+		}
+
+		if batch.Values[1].IsArray() {
+			return scalarArray(ctx, batch.Values[0].Scalar, &batch.Values[1].Array, out)
+		}
+
+		debug.Assert(false, "should be unreachable")
+		return fmt.Errorf("%w: scalar binary with two scalars?", arrow.ErrInvalid)
+	}
 }
 
 // SizeOf determines the size in number of bytes for an integer
diff --git a/go/arrow/compute/utils.go b/go/arrow/compute/utils.go
index 1a05f75b7a5..42640e86829 100644
--- a/go/arrow/compute/utils.go
+++ b/go/arrow/compute/utils.go
@@ -232,7 +232,8 @@ func hasDecimal(vals ...arrow.DataType) bool {
 type decimalPromotion uint8
 
 const (
-	decPromoteAdd decimalPromotion = iota
+	decPromoteNone decimalPromotion = iota
+	decPromoteAdd
 	decPromoteMultiply
 	decPromoteDivide
 )
diff --git a/go/internal/bitutils/bit_block_counter.go b/go/internal/bitutils/bit_block_counter.go
index 1ecd03e37b4..2e2b6a674cc 100644
--- a/go/internal/bitutils/bit_block_counter.go
+++ b/go/internal/bitutils/bit_block_counter.go
@@ -291,6 +291,41 @@ func VisitBitBlocksShort(bitmap []byte, offset, length int64, visitValid func(po
 	return nil
 }
 
+func VisitTwoBitBlocks(leftBitmap, rightBitmap []byte, leftOffset, rightOffset int64, len int64, visitValid func(pos int64), visitNull func()) {
+	if leftBitmap == nil || rightBitmap == nil {
+		// at most one is present
+		if leftBitmap == nil {
+			VisitBitBlocks(rightBitmap, rightOffset, len, visitValid, visitNull)
+		} else {
+			VisitBitBlocks(leftBitmap, leftOffset, len, visitValid, visitNull)
+		}
+		return
+	}
+
+	bitCounter := NewBinaryBitBlockCounter(leftBitmap, rightBitmap, leftOffset, rightOffset, len)
+	var pos int64
+	for pos < len {
+		block := bitCounter.NextAndWord()
+		if block.AllSet() {
+			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
+				visitValid(pos)
+			}
+		} else if block.NoneSet() {
+			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
+				visitNull()
+			}
+		} else {
+			for i := 0; i < int(block.Len); i, pos = i+1, pos+1 {
+				if bitutil.BitIsSet(leftBitmap, int(leftOffset+pos)) && bitutil.BitIsSet(rightBitmap, int(rightOffset+pos)) {
+					visitValid(pos)
+				} else {
+					visitNull()
+				}
+			}
+		}
+	}
+}
+
 type bitOp struct {
 	bit  func(bool, bool) bool
 	word func(uint64, uint64) uint64

From 1121a7ca0c46b37d006e0ac237a3f41e8daff0f8 Mon Sep 17 00:00:00 2001
From: Matt Topol <zotthewizard@gmail.com>
Date: Wed, 28 Sep 2022 18:27:27 -0400
Subject: [PATCH 6/9] more tests and some comments

---
 go/arrow/compute/arithmetic_test.go | 40 +++++++++++++++++++++++++++++
 go/arrow/compute/exec.go            | 11 ++++++++
 go/arrow/compute/functions_test.go  | 21 +++++++++++++++
 go/arrow/compute/utils.go           |  7 +++++
 4 files changed, 79 insertions(+)

diff --git a/go/arrow/compute/arithmetic_test.go b/go/arrow/compute/arithmetic_test.go
index 2dee2d0700b..839d63f09e1 100644
--- a/go/arrow/compute/arithmetic_test.go
+++ b/go/arrow/compute/arithmetic_test.go
@@ -300,3 +300,43 @@ func TestBinaryArithmetic(t *testing.T) {
 	suite.Run(t, &BinaryArithmeticSuite[float64]{min: -math.MaxFloat64, max: math.MaxFloat64})
 	suite.Run(t, new(Float16BinaryFuncTestSuite))
 }
+
+func TestBinaryArithmeticDispatchBest(t *testing.T) {
+	for _, name := range []string{"add", "sub"} {
+		for _, suffix := range []string{"", "_unchecked"} {
+			name += suffix
+			t.Run(name, func(t *testing.T) {
+
+				tests := []struct {
+					left, right arrow.DataType
+					expected    arrow.DataType
+				}{
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
+					{arrow.PrimitiveTypes.Int32, arrow.Null, arrow.PrimitiveTypes.Int32},
+					{arrow.Null, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int8, arrow.PrimitiveTypes.Int32},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Int32},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int32},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Int64},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Int32},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Int32},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint32, arrow.PrimitiveTypes.Int64},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Uint64, arrow.PrimitiveTypes.Int64},
+					{arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint8},
+					{arrow.PrimitiveTypes.Uint8, arrow.PrimitiveTypes.Uint16, arrow.PrimitiveTypes.Uint16},
+					{arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Float32},
+					{arrow.PrimitiveTypes.Float32, arrow.PrimitiveTypes.Int64, arrow.PrimitiveTypes.Float32},
+					{arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Int32, arrow.PrimitiveTypes.Float64},
+					{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.PrimitiveTypes.Float64},
+						arrow.PrimitiveTypes.Float64, arrow.PrimitiveTypes.Float64},
+					{&arrow.DictionaryType{IndexType: arrow.PrimitiveTypes.Int8, ValueType: arrow.PrimitiveTypes.Float64},
+						arrow.PrimitiveTypes.Int16, arrow.PrimitiveTypes.Float64},
+				}
+
+				for _, tt := range tests {
+					CheckDispatchBest(t, name, []arrow.DataType{tt.left, tt.right}, []arrow.DataType{tt.expected, tt.expected})
+				}
+			})
+		}
+	}
+}
diff --git a/go/arrow/compute/exec.go b/go/arrow/compute/exec.go
index 3709424b9e4..b7f4962806c 100644
--- a/go/arrow/compute/exec.go
+++ b/go/arrow/compute/exec.go
@@ -99,6 +99,17 @@ func execInternal(ctx context.Context, fn Function, opts FunctionOptions, passed
 		return
 	}
 
+	// cast arguments if necessary
+	for i, arg := range args {
+		if !arrow.TypeEqual(inTypes[i], arg.(ArrayLikeDatum).Type()) {
+			args[i], err = CastDatum(ctx, arg, SafeCastOptions(inTypes[i]))
+			if err != nil {
+				return nil, err
+			}
+			defer args[i].Release()
+		}
+	}
+
 	kctx := &exec.KernelCtx{Ctx: ctx, Kernel: k}
 	init := k.GetInitFn()
 	kinitArgs := exec.KernelInitArgs{Kernel: k, Inputs: inTypes, Options: opts}
diff --git a/go/arrow/compute/functions_test.go b/go/arrow/compute/functions_test.go
index 78dbd8be5e4..1f167f0232c 100644
--- a/go/arrow/compute/functions_test.go
+++ b/go/arrow/compute/functions_test.go
@@ -19,8 +19,10 @@ package compute_test
 import (
 	"testing"
 
+	"github.com/apache/arrow/go/v10/arrow"
 	"github.com/apache/arrow/go/v10/arrow/compute"
 	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
 )
 
 func TestArityBasics(t *testing.T) {
@@ -44,3 +46,22 @@ func TestArityBasics(t *testing.T) {
 	assert.Equal(t, 2, varargs.NArgs)
 	assert.True(t, varargs.IsVarArgs)
 }
+
+func CheckDispatchBest(t *testing.T, funcName string, originalTypes, expected []arrow.DataType) {
+	fn, exists := compute.GetFunctionRegistry().GetFunction(funcName)
+	require.True(t, exists)
+
+	vals := make([]arrow.DataType, len(originalTypes))
+	copy(vals, originalTypes)
+
+	actualKernel, err := fn.DispatchBest(vals...)
+	require.NoError(t, err)
+	expKernel, err := fn.DispatchExact(expected...)
+	require.NoError(t, err)
+
+	assert.Same(t, expKernel, actualKernel)
+	assert.Equal(t, len(expected), len(vals))
+	for i, v := range vals {
+		assert.True(t, arrow.TypeEqual(v, expected[i]), v.String(), expected[i].String())
+	}
+}
diff --git a/go/arrow/compute/utils.go b/go/arrow/compute/utils.go
index 42640e86829..8a27176a12b 100644
--- a/go/arrow/compute/utils.go
+++ b/go/arrow/compute/utils.go
@@ -85,6 +85,13 @@ func (b *bufferWriteSeeker) Seek(offset int64, whence int) (int64, error) {
 	return int64(newpos), nil
 }
 
+// ensureDictionaryDecoded is used by DispatchBest to determine
+// the proper types for promotion. Casting is then performed by
+// the executor before continuing execution: see the implementation
+// of execInternal in exec.go after calling DispatchBest.
+//
+// That casting is where actual decoding would be performed for
+// the dictionary
 func ensureDictionaryDecoded(vals ...arrow.DataType) {
 	for i, v := range vals {
 		if v.ID() == arrow.DICTIONARY {

From 0c1f144e2da9b1dfbb652703195136f0aed84d59 Mon Sep 17 00:00:00 2001
From: Matt Topol <zotthewizard@gmail.com>
Date: Thu, 29 Sep 2022 17:44:56 -0400
Subject: [PATCH 7/9] add a benchmark plus some minor rearranging for inline
 and memory usage

---
 go/arrow/compute/arithmetic_test.go          | 160 +++++++++++++++++++
 go/arrow/compute/executor.go                 |   2 +-
 go/arrow/compute/go.mod                      |   2 +-
 go/arrow/compute/internal/exec/span.go       |  18 ++-
 go/arrow/compute/internal/kernels/helpers.go |  42 +++--
 5 files changed, 203 insertions(+), 21 deletions(-)

diff --git a/go/arrow/compute/arithmetic_test.go b/go/arrow/compute/arithmetic_test.go
index 839d63f09e1..2da7a62fe86 100644
--- a/go/arrow/compute/arithmetic_test.go
+++ b/go/arrow/compute/arithmetic_test.go
@@ -27,13 +27,35 @@ import (
 	"github.com/apache/arrow/go/v10/arrow/array"
 	"github.com/apache/arrow/go/v10/arrow/compute"
 	"github.com/apache/arrow/go/v10/arrow/compute/internal/exec"
+	"github.com/apache/arrow/go/v10/arrow/internal/testing/gen"
 	"github.com/apache/arrow/go/v10/arrow/memory"
 	"github.com/apache/arrow/go/v10/arrow/scalar"
+	"github.com/klauspost/cpuid/v2"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 	"github.com/stretchr/testify/suite"
 )
 
+var (
+	CpuCacheSizes = [...]int{ // defaults
+		32 * 1024,   // level 1: 32K
+		256 * 1024,  // level 2: 256K
+		3072 * 1024, // level 3: 3M
+	}
+)
+
+func init() {
+	if cpuid.CPU.Cache.L1D != -1 {
+		CpuCacheSizes[0] = cpuid.CPU.Cache.L1D
+	}
+	if cpuid.CPU.Cache.L2 != -1 {
+		CpuCacheSizes[1] = cpuid.CPU.Cache.L2
+	}
+	if cpuid.CPU.Cache.L3 != -1 {
+		CpuCacheSizes[2] = cpuid.CPU.Cache.L3
+	}
+}
+
 type binaryArithmeticFunc = func(context.Context, compute.ArithmeticOptions, compute.Datum, compute.Datum) (compute.Datum, error)
 
 type binaryFunc = func(left, right compute.Datum) (compute.Datum, error)
@@ -340,3 +362,141 @@ func TestBinaryArithmeticDispatchBest(t *testing.T) {
 		}
 	}
 }
+
+const seed = 0x94378165
+
+type binaryOp = func(ctx context.Context, left, right compute.Datum) (compute.Datum, error)
+
+func Add(ctx context.Context, left, right compute.Datum) (compute.Datum, error) {
+	var opts compute.ArithmeticOptions
+	return compute.Add(ctx, opts, left, right)
+}
+
+func Subtract(ctx context.Context, left, right compute.Datum) (compute.Datum, error) {
+	var opts compute.ArithmeticOptions
+	return compute.Subtract(ctx, opts, left, right)
+}
+
+func AddUnchecked(ctx context.Context, left, right compute.Datum) (compute.Datum, error) {
+	opts := compute.ArithmeticOptions{NoCheckOverflow: true}
+	return compute.Add(ctx, opts, left, right)
+}
+
+func SubtractUnchecked(ctx context.Context, left, right compute.Datum) (compute.Datum, error) {
+	opts := compute.ArithmeticOptions{NoCheckOverflow: true}
+	return compute.Subtract(ctx, opts, left, right)
+}
+
+func arrayScalarKernel(b *testing.B, sz int, nullProp float64, op binaryOp, dt arrow.DataType) {
+	b.Run("array scalar", func(b *testing.B) {
+		var (
+			mem                     = memory.NewCheckedAllocator(memory.DefaultAllocator)
+			arraySize               = int64(sz / dt.(arrow.FixedWidthDataType).Bytes())
+			min       int64         = 6
+			max                     = min + 15
+			sc, _                   = scalar.MakeScalarParam(6, dt)
+			rhs       compute.Datum = &compute.ScalarDatum{Value: sc}
+			rng                     = gen.NewRandomArrayGenerator(seed, mem)
+		)
+
+		lhs := rng.Numeric(dt.ID(), arraySize, min, max, nullProp)
+		b.Cleanup(func() {
+			lhs.Release()
+		})
+
+		var (
+			res  compute.Datum
+			err  error
+			ctx  = context.Background()
+			left = &compute.ArrayDatum{Value: lhs.Data()}
+		)
+
+		b.SetBytes(arraySize)
+		b.ResetTimer()
+		for n := 0; n < b.N; n++ {
+			res, err = op(ctx, left, rhs)
+			b.StopTimer()
+			if err != nil {
+				b.Fatal(err)
+			}
+			res.Release()
+			b.StartTimer()
+		}
+	})
+}
+
+func arrayArrayKernel(b *testing.B, sz int, nullProp float64, op binaryOp, dt arrow.DataType) {
+	b.Run("array array", func(b *testing.B) {
+		var (
+			mem             = memory.NewCheckedAllocator(memory.DefaultAllocator)
+			arraySize       = int64(sz / dt.(arrow.FixedWidthDataType).Bytes())
+			rmin      int64 = 1
+			rmax            = rmin + 6 // 7
+			lmin            = rmax + 1 // 8
+			lmax            = lmin + 6 // 14
+			rng             = gen.NewRandomArrayGenerator(seed, mem)
+		)
+
+		lhs := rng.Numeric(dt.ID(), arraySize, lmin, lmax, nullProp)
+		rhs := rng.Numeric(dt.ID(), arraySize, rmin, rmax, nullProp)
+		b.Cleanup(func() {
+			lhs.Release()
+			rhs.Release()
+		})
+		var (
+			res   compute.Datum
+			err   error
+			ctx   = context.Background()
+			left  = &compute.ArrayDatum{Value: lhs.Data()}
+			right = &compute.ArrayDatum{Value: rhs.Data()}
+		)
+
+		b.SetBytes(arraySize)
+		b.ResetTimer()
+		for n := 0; n < b.N; n++ {
+			res, err = op(ctx, left, right)
+			b.StopTimer()
+			if err != nil {
+				b.Fatal(err)
+			}
+			res.Release()
+			b.StartTimer()
+		}
+	})
+}
+
+func BenchmarkScalarArithmetic(b *testing.B) {
+	args := []struct {
+		sz       int
+		nullProb float64
+	}{
+		{CpuCacheSizes[2], 0},
+		{CpuCacheSizes[2], 0.5},
+		{CpuCacheSizes[2], 1},
+	}
+
+	testfns := []struct {
+		name string
+		op   binaryOp
+	}{
+		{"Add", Add},
+		{"AddUnchecked", AddUnchecked},
+		{"Subtract", Subtract},
+		{"SubtractUnchecked", SubtractUnchecked},
+	}
+
+	for _, dt := range numericTypes {
+		b.Run(dt.String(), func(b *testing.B) {
+			for _, benchArgs := range args {
+				b.Run(fmt.Sprintf("sz=%d/nullprob=%.2f", benchArgs.sz, benchArgs.nullProb), func(b *testing.B) {
+					for _, tfn := range testfns {
+						b.Run(tfn.name, func(b *testing.B) {
+							arrayArrayKernel(b, benchArgs.sz, benchArgs.nullProb, tfn.op, dt)
+							arrayScalarKernel(b, benchArgs.sz, benchArgs.nullProb, tfn.op, dt)
+						})
+					}
+				})
+			}
+		})
+	}
+}
diff --git a/go/arrow/compute/executor.go b/go/arrow/compute/executor.go
index 6d19dee2184..f51c59deaf0 100644
--- a/go/arrow/compute/executor.go
+++ b/go/arrow/compute/executor.go
@@ -242,7 +242,7 @@ func propagateNulls(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ArraySp
 	}
 
 	var (
-		arrsWithNulls = make([]*exec.ArraySpan, 0)
+		arrsWithNulls = make([]*exec.ArraySpan, 0, len(batch.Values))
 		isAllNull     bool
 		prealloc      bool = out.Buffers[0].Buf != nil
 	)
diff --git a/go/arrow/compute/go.mod b/go/arrow/compute/go.mod
index 9aa0379f689..d8ba5ade675 100644
--- a/go/arrow/compute/go.mod
+++ b/go/arrow/compute/go.mod
@@ -22,6 +22,7 @@ replace github.com/apache/arrow/go/v10 => ../../
 
 require (
 	github.com/apache/arrow/go/v10 v10.0.0-00010101000000-000000000000
+	github.com/klauspost/cpuid/v2 v2.0.9
 	github.com/stretchr/testify v1.8.0
 	golang.org/x/exp v0.0.0-20220827204233-334a2380cb91
 	golang.org/x/sync v0.0.0-20220819030929-7fc1605a5dde
@@ -38,7 +39,6 @@ require (
 	github.com/google/flatbuffers v2.0.8+incompatible // indirect
 	github.com/klauspost/asmfmt v1.3.2 // indirect
 	github.com/klauspost/compress v1.15.9 // indirect
-	github.com/klauspost/cpuid/v2 v2.0.9 // indirect
 	github.com/kr/text v0.2.0 // indirect
 	github.com/minio/asm2plan9s v0.0.0-20200509001527-cdd76441f9d8 // indirect
 	github.com/minio/c2goasm v0.0.0-20190812172519-36a3d3bbc4f3 // indirect
diff --git a/go/arrow/compute/internal/exec/span.go b/go/arrow/compute/internal/exec/span.go
index f0f869b4aaf..6a37e14f633 100644
--- a/go/arrow/compute/internal/exec/span.go
+++ b/go/arrow/compute/internal/exec/span.go
@@ -129,7 +129,7 @@ func (a *ArraySpan) NumBuffers() int { return getNumBuffers(a.Type) }
 // MakeData generates an arrow.ArrayData object for this ArraySpan,
 // properly updating the buffer ref count if necessary.
 func (a *ArraySpan) MakeData() arrow.ArrayData {
-	bufs := make([]*memory.Buffer, a.NumBuffers())
+	var bufs [3]*memory.Buffer
 	for i := range bufs {
 		b := a.GetBuffer(i)
 		bufs[i] = b
@@ -170,7 +170,7 @@ func (a *ArraySpan) MakeData() arrow.ArrayData {
 	}
 
 	if dt.ID() == arrow.DICTIONARY {
-		result := array.NewData(a.Type, length, bufs, nil, nulls, off)
+		result := array.NewData(a.Type, length, bufs[:], nil, nulls, off)
 		dict := a.Dictionary().MakeData()
 		defer dict.Release()
 		result.SetDictionary(dict)
@@ -188,7 +188,7 @@ func (a *ArraySpan) MakeData() arrow.ArrayData {
 			children[i] = d
 		}
 	}
-	return array.NewData(a.Type, length, bufs, children, nulls, off)
+	return array.NewData(a.Type, length, bufs[:], children, nulls, off)
 }
 
 // MakeArray is a convenience function for calling array.MakeFromData(a.MakeData())
@@ -201,14 +201,20 @@ func (a *ArraySpan) MakeArray() arrow.Array {
 // SetSlice updates the offset and length of this ArraySpan to refer to
 // a specific slice of the underlying buffers.
 func (a *ArraySpan) SetSlice(off, length int64) {
-	a.Offset, a.Len = off, length
-	if a.Type.ID() != arrow.NULL {
+	if off == a.Offset && length == a.Len {
+		// don't modify the nulls if the slice is the entire span
+		return
+	}
+
+	if a.Nulls != a.Len && a.Type.ID() != arrow.NULL {
 		if a.Nulls != 0 {
 			a.Nulls = array.UnknownNullCount
 		}
 	} else {
-		a.Nulls = a.Len
+		a.Nulls = length
 	}
+
+	a.Offset, a.Len = off, length
 }
 
 // GetBuffer returns the buffer for the requested index. If this buffer
diff --git a/go/arrow/compute/internal/kernels/helpers.go b/go/arrow/compute/internal/kernels/helpers.go
index 3803f627951..7fd85414376 100644
--- a/go/arrow/compute/internal/kernels/helpers.go
+++ b/go/arrow/compute/internal/kernels/helpers.go
@@ -162,7 +162,7 @@ func ScalarUnaryBoolArg[OutT exec.FixedWidthTypes](op func(*exec.KernelCtx, []by
 }
 
 func UnboxScalar[T exec.FixedWidthTypes](val scalar.PrimitiveScalar) T {
-	return exec.GetData[T](val.Data())[0]
+	return *(*T)(unsafe.Pointer(&val.Data()[0]))
 }
 
 func UnboxBinaryScalar(val scalar.BinaryScalar) []byte {
@@ -172,10 +172,14 @@ func UnboxBinaryScalar(val scalar.BinaryScalar) []byte {
 	return val.Data()
 }
 
+type arrArrFn[OutT, Arg0T, Arg1T exec.FixedWidthTypes] func(*exec.KernelCtx, []Arg0T, []Arg1T, []OutT) error
+type arrScalarFn[OutT, Arg0T, Arg1T exec.FixedWidthTypes] func(*exec.KernelCtx, []Arg0T, Arg1T, []OutT) error
+type scalarArrFn[OutT, Arg0T, Arg1T exec.FixedWidthTypes] func(*exec.KernelCtx, Arg0T, []Arg1T, []OutT) error
+
 type binaryOps[OutT, Arg0T, Arg1T exec.FixedWidthTypes] struct {
-	arrArr    func(*exec.KernelCtx, []Arg0T, []Arg1T, []OutT) error
-	arrScalar func(*exec.KernelCtx, []Arg0T, Arg1T, []OutT) error
-	scalarArr func(*exec.KernelCtx, Arg0T, []Arg1T, []OutT) error
+	arrArr    arrArrFn[OutT, Arg0T, Arg1T]
+	arrScalar arrScalarFn[OutT, Arg0T, Arg1T]
+	scalarArr scalarArrFn[OutT, Arg0T, Arg1T]
 }
 
 func ScalarBinary[OutT, Arg0T, Arg1T exec.FixedWidthTypes](ops binaryOps[OutT, Arg0T, Arg1T]) exec.ArrayKernelExec {
@@ -224,13 +228,17 @@ func ScalarBinary[OutT, Arg0T, Arg1T exec.FixedWidthTypes](ops binaryOps[OutT, A
 }
 
 func ScalarBinaryNotNull[OutT, Arg0T, Arg1T exec.FixedWidthTypes](op func(*exec.KernelCtx, Arg0T, Arg1T, *error) OutT) exec.ArrayKernelExec {
-	arrayArray := func(ctx *exec.KernelCtx, arg0, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
+	arrayArray := func(ctx *exec.KernelCtx, arg0, arg1 *exec.ArraySpan, out *exec.ExecResult) (err error) {
+		// fast path if one side is entirely null
+		if arg0.UpdateNullCount() == arg0.Len || arg1.UpdateNullCount() == arg1.Len {
+			return nil
+		}
+
 		var (
 			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
 			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
 			outData = exec.GetSpanValues[OutT](out, 1)
 			outPos  int64
-			err     error
 			def     OutT
 		)
 		bitutils.VisitTwoBitBlocks(arg0.Buffers[0].Buf, arg1.Buffers[0].Buf, arg0.Offset, arg1.Offset, out.Len,
@@ -241,15 +249,19 @@ func ScalarBinaryNotNull[OutT, Arg0T, Arg1T exec.FixedWidthTypes](op func(*exec.
 				outData[outPos] = def
 				outPos++
 			})
-		return err
+		return
 	}
 
-	arrayScalar := func(ctx *exec.KernelCtx, arg0 *exec.ArraySpan, arg1 scalar.Scalar, out *exec.ExecResult) error {
+	arrayScalar := func(ctx *exec.KernelCtx, arg0 *exec.ArraySpan, arg1 scalar.Scalar, out *exec.ExecResult) (err error) {
+		// fast path if one side is entirely null
+		if arg0.UpdateNullCount() == arg0.Len || !arg1.IsValid() {
+			return nil
+		}
+
 		var (
 			a0      = exec.GetSpanValues[Arg0T](arg0, 1)
 			outData = exec.GetSpanValues[OutT](out, 1)
 			outPos  int64
-			err     error
 			def     OutT
 		)
 		if !arg1.IsValid() {
@@ -265,15 +277,19 @@ func ScalarBinaryNotNull[OutT, Arg0T, Arg1T exec.FixedWidthTypes](op func(*exec.
 				outData[outPos] = def
 				outPos++
 			})
-		return err
+		return
 	}
 
-	scalarArray := func(ctx *exec.KernelCtx, arg0 scalar.Scalar, arg1 *exec.ArraySpan, out *exec.ExecResult) error {
+	scalarArray := func(ctx *exec.KernelCtx, arg0 scalar.Scalar, arg1 *exec.ArraySpan, out *exec.ExecResult) (err error) {
+		// fast path if one side is entirely null
+		if arg1.UpdateNullCount() == arg1.Len || !arg0.IsValid() {
+			return nil
+		}
+
 		var (
 			a1      = exec.GetSpanValues[Arg1T](arg1, 1)
 			outData = exec.GetSpanValues[OutT](out, 1)
 			outPos  int64
-			err     error
 			def     OutT
 		)
 		if !arg0.IsValid() {
@@ -289,7 +305,7 @@ func ScalarBinaryNotNull[OutT, Arg0T, Arg1T exec.FixedWidthTypes](op func(*exec.
 				outData[outPos] = def
 				outPos++
 			})
-		return err
+		return
 	}
 
 	return func(ctx *exec.KernelCtx, batch *exec.ExecSpan, out *exec.ExecResult) error {

From c4a205e07e9e1a1082776766c0770cf8f289c9dd Mon Sep 17 00:00:00 2001
From: Matt Topol <zotthewizard@gmail.com>
Date: Thu, 29 Sep 2022 18:05:30 -0400
Subject: [PATCH 8/9] fix null compute SetSlice

---
 go/arrow/compute/internal/exec/span.go | 12 ++++++++----
 1 file changed, 8 insertions(+), 4 deletions(-)

diff --git a/go/arrow/compute/internal/exec/span.go b/go/arrow/compute/internal/exec/span.go
index 6a37e14f633..1e8a719d347 100644
--- a/go/arrow/compute/internal/exec/span.go
+++ b/go/arrow/compute/internal/exec/span.go
@@ -170,7 +170,7 @@ func (a *ArraySpan) MakeData() arrow.ArrayData {
 	}
 
 	if dt.ID() == arrow.DICTIONARY {
-		result := array.NewData(a.Type, length, bufs[:], nil, nulls, off)
+		result := array.NewData(a.Type, length, bufs[:a.NumBuffers()], nil, nulls, off)
 		dict := a.Dictionary().MakeData()
 		defer dict.Release()
 		result.SetDictionary(dict)
@@ -188,7 +188,7 @@ func (a *ArraySpan) MakeData() arrow.ArrayData {
 			children[i] = d
 		}
 	}
-	return array.NewData(a.Type, length, bufs[:], children, nulls, off)
+	return array.NewData(a.Type, length, bufs[:a.NumBuffers()], children, nulls, off)
 }
 
 // MakeArray is a convenience function for calling array.MakeFromData(a.MakeData())
@@ -206,9 +206,13 @@ func (a *ArraySpan) SetSlice(off, length int64) {
 		return
 	}
 
-	if a.Nulls != a.Len && a.Type.ID() != arrow.NULL {
+	if a.Type.ID() != arrow.NULL {
 		if a.Nulls != 0 {
-			a.Nulls = array.UnknownNullCount
+			if a.Nulls == a.Len {
+				a.Nulls = length
+			} else {
+				a.Nulls = array.UnknownNullCount
+			}
 		}
 	} else {
 		a.Nulls = length

From f0f01640a3e7cbf3d5df8713b897886740971e4a Mon Sep 17 00:00:00 2001
From: Matt Topol <zotthewizard@gmail.com>
Date: Mon, 17 Oct 2022 10:55:30 -0400
Subject: [PATCH 9/9] fix merge update

---
 go/arrow/compute/cast_test.go | 21 ---------------------
 1 file changed, 21 deletions(-)

diff --git a/go/arrow/compute/cast_test.go b/go/arrow/compute/cast_test.go
index c8f07e23aef..cb5c4f8a758 100644
--- a/go/arrow/compute/cast_test.go
+++ b/go/arrow/compute/cast_test.go
@@ -34,7 +34,6 @@ import (
 	"github.com/apache/arrow/go/v10/arrow/internal/testing/types"
 	"github.com/apache/arrow/go/v10/arrow/memory"
 	"github.com/apache/arrow/go/v10/arrow/scalar"
-	"github.com/klauspost/cpuid/v2"
 	"github.com/stretchr/testify/assert"
 	"github.com/stretchr/testify/require"
 	"github.com/stretchr/testify/suite"
@@ -2732,26 +2731,6 @@ func TestCasts(t *testing.T) {
 
 const rngseed = 0x94378165
 
-var (
-	CpuCacheSizes = [...]int{ // defaults
-		32 * 1024,   // level 1: 32K
-		256 * 1024,  // level 2: 256K
-		3072 * 1024, // level 3: 3M
-	}
-)
-
-func init() {
-	if cpuid.CPU.Cache.L1D != -1 {
-		CpuCacheSizes[0] = cpuid.CPU.Cache.L1D
-	}
-	if cpuid.CPU.Cache.L2 != -1 {
-		CpuCacheSizes[1] = cpuid.CPU.Cache.L2
-	}
-	if cpuid.CPU.Cache.L3 != -1 {
-		CpuCacheSizes[2] = cpuid.CPU.Cache.L3
-	}
-}
-
 func benchmarkNumericCast(b *testing.B, fromType, toType arrow.DataType, opts compute.CastOptions, size, min, max int64, nullprob float64) {
 	rng := gen.NewRandomArrayGenerator(rngseed, memory.DefaultAllocator)
 	arr := rng.Numeric(fromType.ID(), size, min, max, nullprob)