flexflow · lockshaw · Jan 7, 2024 · Jan 1, 2024
diff --git a/lib/kernels/include/kernels/embedding_kernels.h b/lib/kernels/include/kernels/embedding_kernels.h
@@ -5,29 +5,25 @@
 #include "kernels/device.h"
 
 namespace FlexFlow {
-
-class EmbeddingPerDeviceState : public PerDeviceOpState {
-public:
-  EmbeddingPerDeviceState(FFHandler handle);
-  DataType input_data_type, output_data_type;
-  AggrMode aggr;
-};
-
 namespace Kernels {
 namespace Embedding {
 void forward_kernel(ffStream_t stream,
-                    EmbeddingPerDeviceState const *m,
                     GenericTensorAccessorR const &input,
                     GenericTensorAccessorW const &output,
                     GenericTensorAccessorR const &weight,
+                    DataType input_data_type,
+                    DataType output_data_type,
+                    AggrMode aggr,
                     int in_dim,
                     int out_dim,
                     int batch_size);
 void backward_kernel(ffStream_t stream,
-                     EmbeddingPerDeviceState const *m,
                      GenericTensorAccessorR const &input,
                      GenericTensorAccessorR const &output,
                      GenericTensorAccessorW const &weight_grad,
+                     DataType input_data_type,
+                     DataType output_data_type,
+                     AggrMode aggr,
                      int in_dim,
                      int out_dim,
                      int batch_size);

diff --git a/lib/kernels/src/cuda/embedding_kernels.cu b/lib/kernels/src/cuda/embedding_kernels.cu
@@ -24,7 +24,7 @@ namespace Embedding {
 template <DataType TI, DataType TD>
 struct ForwardKernel {
   void operator()(cudaStream_t stream,
-                  EmbeddingPerDeviceState const *m,
+                  AggrMode aggr,
                   GenericTensorAccessorR const &input,
                   GenericTensorAccessorW const &output,
                   GenericTensorAccessorR const &weight,
@@ -35,8 +35,8 @@ struct ForwardKernel {
     assert(weight.data_type == DT_HALF || weight.data_type == DT_FLOAT ||
            weight.data_type == DT_DOUBLE);
 
-    if (m->aggr == AGGR_MODE_NONE) {
-      embed_forward_no_aggr<TI, TD><<<GET_BLOCKS(output.domain.get_volume()),
+    if (aggr == AGGR_MODE_NONE) {
+      embed_forward_no_aggr<TI, TD><<<GET_BLOCKS(output.shape.get_volume()),
                                       CUDA_NUM_THREADS,
                                       0,
                                       stream>>>(input.get<TI>(),
@@ -45,8 +45,8 @@ struct ForwardKernel {
                                                 out_dim,
                                                 batch_size);
     } else {
-      assert(m->aggr == AGGR_MODE_AVG || m->aggr == AGGR_MODE_SUM);
-      embed_forward_with_aggr<TI, TD><<<GET_BLOCKS(output.domain.get_volume()),
+      assert(aggr == AGGR_MODE_AVG || aggr == AGGR_MODE_SUM);
+      embed_forward_with_aggr<TI, TD><<<GET_BLOCKS(output.shape.get_volume()),
                                         CUDA_NUM_THREADS,
                                         0,
                                         stream>>>(input.get<TI>(),
@@ -55,15 +55,15 @@ struct ForwardKernel {
                                                   out_dim,
                                                   in_dim,
                                                   batch_size,
-                                                  m->aggr);
+                                                  aggr);
     }
   }
 }
 
 template <DataType TI, DataType TD>
 struct BackwardKernel {
   void operator()(cudaStream_t stream,
-                  EmbeddingPerDeviceState const *m,
+                  AggrMode aggr,
                   GenericTensorAccessorR const &input,
                   GenericTensorAccessorR const &output,
                   GenericTensorAccessorW const &weight_grad,
@@ -73,8 +73,8 @@ struct BackwardKernel {
     assert(input.data_type == DT_INT32 || input.data_type == DT_INT64);
     assert(output.data_type == DT_HALF || output.data_type == DT_FLOAT,
            || output.data_type == DT_DOUBLE);
-    if (m->aggr == AGGR_MODE_NONE) {
-      embed_backward_no_aggr<TI, TD><<<GET_BLOCKS(output.domain.get_volume()),
+    if (aggr == AGGR_MODE_NONE) {
+      embed_backward_no_aggr<TI, TD><<<GET_BLOCKS(output.shape.get_volume()),
                                        CUDA_NUM_THREADS,
                                        0,
                                        stream>>>(input.get<TI>(),
@@ -83,7 +83,7 @@ struct BackwardKernel {
                                                  out_dim,
                                                  batch_size);
     } else {
-      embed_backward_with_aggr<TI, TD><<<GET_BLOCKS(output.domain.get_volume()),
+      embed_backward_with_aggr<TI, TD><<<GET_BLOCKS(output.shape.get_volume()),
                                          CUDA_NUM_THREADS,
                                          0,
                                          stream>>>(input.get<TI>(),
@@ -92,23 +92,25 @@ struct BackwardKernel {
                                                    out_dim,
                                                    in_dim,
                                                    batch_size,
-                                                   m->aggr);
+                                                   aggr);
     }
   }
 }
 
-void forward_kernel(cudaStream_t stream,
-                    EmbeddingPerDeviceState const *m,
+void forward_kernel(ffStream_t stream,
                     GenericTensorAccessorR const &input,
                     GenericTensorAccessorW const &output,
                     GenericTensorAccessorR const &weight,
+                    DataType input_data_type,
+                    DataType output_data_type,
+                    AggrMode aggr,
                     int in_dim,
                     int out_dim,
                     int batch_size) {
-  DataTypeDispatch2<ForwardKernel>{}(m->input_data_type,
-                                     m->output_data_type,
+  DataTypeDispatch2<ForwardKernel>{}(input_data_type,
+                                     output_data_type,
                                      stream,
-                                     m,
+                                     aggr,
                                      input,
                                      output,
                                      weight,
@@ -118,17 +120,19 @@ void forward_kernel(cudaStream_t stream,
 }
 
 void backward_kernel(cudaStream_t stream,
-                     EmbeddingPerDeviceState const *m,
                      GenericTensorAccessorR const &input,
                      GenericTensorAccessorR const &output,
                      GenericTensorAccessorW const &weight_grad,
+                     DataType input_data_type,
+                     DataType output_data_type,
+                     AggrMode aggr,
                      int in_dim,
                      int out_dim,
                      int batch_size) {
-  DataTypeDispatch2<BackwardKernel>{}(m->input_data_type,
-                                      m->output_data_type,
+  DataTypeDispatch2<BackwardKernel>{}(input_data_type,
+                                      output_data_type,
                                       stream,
-                                      m,
+                                      aggr,
                                       input,
                                       output,
                                       weight,

diff --git a/lib/kernels/src/hip/embedding_kernels.cpp b/lib/kernels/src/hip/embedding_kernels.cpp
@@ -25,7 +25,7 @@ namespace Embedding {
 template <DataType TI, DataType TD>
 struct ForwardKernel {
   void operator()(hipStream_t stream,
-                  EmbeddingPerDeviceState const *m,
+                  AggrMode aggr,
                   GenericTensorAccessorR const &input,
                   GenericTensorAccessorW const &output,
                   GenericTensorAccessorR const &weight,
@@ -36,9 +36,9 @@ struct ForwardKernel {
     assert(weight.data_type == DT_HALF || weight.data_type == DT_FLOAT ||
            weight.data_type == DT_DOUBLE);
 
-    if (m->aggr == AGGR_MODE_NONE) {
+    if (aggr == AGGR_MODE_NONE) {
       hipLaunchKernelGGL(HIP_KERNEL_NAME(embed_forward_no_aggr<TI, TD>),
-                         GET_BLOCKS(output.domain.get_volume()),
+                         GET_BLOCKS(output.shape.get_volume()),
                          CUDA_NUM_THREADS,
                          0,
                          stream,
@@ -49,7 +49,7 @@ struct ForwardKernel {
                          batch_size);
     } else {
       hipLaunchKernelGGL(HIP_KERNEL_NAME(embed_forward_with_aggr<TI, TD>),
-                         GET_BLOCKS(output.domain.get_volume()),
+                         GET_BLOCKS(output.shape.get_volume()),
                          CUDA_NUM_THREADS,
                          0,
                          stream,
@@ -59,15 +59,15 @@ struct ForwardKernel {
                          out_dim,
                          in_dim,
                          batch_size,
-                         m->aggr);
+                         aggr);
     }
   }
 }
 
 template <DataType TI, DataType TD>
 struct BackwardKernel {
   void operator()(hipStream_t stream,
-                  EmbeddingPerDeviceState const *m,
+                  AggrMode aggr,
                   GenericTensorAccessorR const &input,
                   GenericTensorAccessorR const &output,
                   GenericTensorAccessorW const &weight_grad,
@@ -77,9 +77,9 @@ struct BackwardKernel {
     assert(input.data_type == DT_INT32 || input.data_type == DT_INT64);
     assert(output.data_type == DT_HALF || output.data_type == DT_FLOAT,
            || output.data_type == DT_DOUBLE);
-    if (m->aggr == AGGR_MODE_NONE) {
+    if (aggr == AGGR_MODE_NONE) {
       hipLaunchKernelGGL(HIP_KERNEL_NAME(embed_backward_no_aggr<TI, TD>),
-                         GET_BLOCKS(output.domain.get_volume()),
+                         GET_BLOCKS(output.shape.get_volume()),
                          CUDA_NUM_THREADS,
                          0,
                          stream,
@@ -90,7 +90,7 @@ struct BackwardKernel {
                          batch_size);
     } else {
       hipLaunchKernelGGL(HIP_KERNEL_NAME(embed_backward_with_aggr<TI, TD>),
-                         GET_BLOCKS(output.domain.get_volume()),
+                         GET_BLOCKS(output.shape.get_volume()),
                          CUDA_NUM_THREADS,
                          0,
                          stream,
@@ -100,23 +100,25 @@ struct BackwardKernel {
                          out_dim,
                          in_dim,
                          batch_size,
-                         m->aggr);
+                         aggr);
     }
   }
 }
 
 void forward_kernel(hipStream_t stream,
-                    EmbeddingPerDeviceState const *m,
                     GenericTensorAccessorR const &input,
                     GenericTensorAccessorW const &output,
                     GenericTensorAccessorR const &weight,
+                    DataType input_data_type,
+                    DataType output_data_type,
+                    AggrMode aggr,
                     int in_dim,
                     int out_dim,
                     int batch_size) {
-  DataTypeDispatch2<ForwardKernel>{}(m->input_data_type,
-                                     m->output_data_type,
+  DataTypeDispatch2<ForwardKernel>{}(input_data_type,
+                                     output_data_type,
                                      stream,
-                                     m,
+                                     aggr,
                                      input,
                                      output,
                                      weight,
@@ -126,17 +128,19 @@ void forward_kernel(hipStream_t stream,
 }
 
 void backward_kernel(hipStream_t stream,
-                     EmbeddingPerDeviceState const *m,
                      GenericTensorAccessorR const &input,
                      GenericTensorAccessorR const &output,
                      GenericTensorAccessorW const &weight_grad,
+                     DataType input_data_type,
+                     DataType output_data_type,
+                     AggrMode aggr,
                      int in_dim,
                      int out_dim,
                      int batch_size) {
-  DataTypeDispatch2<BackwardKernel>{}(m->input_data_type,
-                                      m->output_data_type,
+  DataTypeDispatch2<BackwardKernel>{}(input_data_type,
+                                      output_data_type,
                                       stream,
-                                      m,
+                                      aggr,
                                       input,
                                       output,
                                       weight,