hpcaitech · binmakeswell · May 16, 2022 · May 16, 2022
diff --git a/colossalai/nn/layer/parallel_2p5d/layers.py b/colossalai/nn/layer/parallel_2p5d/layers.py
@@ -189,7 +189,7 @@ def _save_to_state_dict(self, destination, prefix, keep_vars):
     def forward(self, x: Tensor) -> Tensor:
         # input: [m/dq, n/q, k/q]
         # output: [m/dq, n/q, h/q]
-        out_shape = x.shape[:-1] + (self.hidden_size_per_partition, )
+        out_shape = x.shape[:-1] + (self.hidden_size_per_partition,)
 
         output = Matmul_AB_2p5D.apply(
             x,
@@ -254,7 +254,7 @@ def __init__(self, normalized_shape: int, eps: float = 1e-05, bias=True, dtype=N
         self.tesseract_dim, _ = get_tesseract_dim_dep_from_env()
 
         # partitioning dimension
-        self.partitioned_partition = divide(normalized_shape, self.tesseract_dim)  # *
+        self.partitioned_partition = divide(normalized_shape, self.tesseract_dim)    # *
 
         # create parameters
         factory_kwargs = {'device': get_current_device(), 'dtype': dtype}
@@ -357,16 +357,16 @@ def _save_to_state_dict(self, destination, prefix, keep_vars):
 
     def forward(self, x: Tensor) -> Tensor:
         with torch.no_grad():
-            E_x = torch.sum(x, dim=-1, keepdim=True)  # [b/q, s, 1]
+            E_x = torch.sum(x, dim=-1, keepdim=True)    # [b/q, s, 1]
             torch.distributed.all_reduce(E_x, group=gpc.get_group(ParallelMode.PARALLEL_2P5D_ROW))
             E_x /= self.normalized_shape
 
             # Var_x in the block below is the sum of input^2
-            Var_x = torch.sum(x * x, dim=-1, keepdim=True)  # [b/q, s, 1]
+            Var_x = torch.sum(x * x, dim=-1, keepdim=True)    # [b/q, s, 1]
             torch.distributed.all_reduce(Var_x, group=gpc.get_group(ParallelMode.PARALLEL_2P5D_ROW))
             Var_x /= self.normalized_shape
 
-            Var_x = Var_x - E_x * E_x  # variance of x [b/q, s, 1]
+            Var_x = Var_x - E_x * E_x    # variance of x [b/q, s, 1]
             # this time 1/sqrt(Var_x + epsilon)
             Var_x = 1.0 / torch.sqrt(Var_x + self.variance_epsilon)
 
@@ -589,7 +589,7 @@ def forward(self, input_: Tensor) -> Tensor:
 
         output = F.conv2d(input_, weight, bias, stride=self.patch_size)
         if self.flatten:
-            output = output.flatten(2).transpose(1, 2)  # BCHW -> BNC
+            output = output.flatten(2).transpose(1, 2)    # BCHW -> BNC
 
         cls_token = all_gather_tensor_2p5d(self.cls_token, -1, ParallelMode.PARALLEL_2P5D_COL)
         pos_embed = all_gather_tensor_2p5d(self.pos_embed, -1, ParallelMode.PARALLEL_2P5D_COL)
@@ -1038,7 +1038,7 @@ def _save_to_state_dict(self, destination, prefix, keep_vars):
             destination.update(local_state)
 
     def forward(self, input_: Tensor) -> Tensor:
-        out_shape = input_.shape[:-1] + (self.num_classes, )
+        out_shape = input_.shape[:-1] + (self.num_classes,)
 
         return classifier_2p5d(input_, self.weight, self.bias, self.tesseract_dim, out_shape, self.row_rank,
                                self.col_rank, ParallelMode.PARALLEL_2P5D_ROW, ParallelMode.PARALLEL_2P5D_COL,
@@ -1172,7 +1172,7 @@ def _load_from_state_dict(self, state_dict, prefix, *args, **kwargs):
     def forward(self, x: Tensor) -> Tensor:
         # input: [m/dq, n/q, k/q]
         # output: [m/dq, n/q, h/q]
-        out_shape = x.shape[:-1] + (self.hidden_size_per_partition, )
+        out_shape = x.shape[:-1] + (self.hidden_size_per_partition,)
 
         output = Matmul_ABT_2p5D.apply(
             x,

diff --git a/examples b/examples
+14 −0		README.md
+4 −10		features/pipeline_parallel/README.md
+3 −24		features/pipeline_parallel/resnet.py
+2 −0		image/moe/README.md
+2 −0		image/simclr/README.md
+5 −28		image/vision_transformer/data_parallel/README.md
+0 −0		image/vision_transformer/data_parallel/dataloader/__init__.py
+0 −110		image/vision_transformer/data_parallel/dataloader/imagenet_dali_dataloader.py
+0 −209		image/vision_transformer/data_parallel/dataloader/rand_augment.py
+3 −34		image/vision_transformer/data_parallel/train.py
+3 −23		image/vision_transformer/data_parallel/train_with_cifar10.py
+5 −8		image/vision_transformer/hybrid_parallel/README.md
+0 −3		image/vision_transformer/hybrid_parallel/dataloader/__init__.py
+0 −94		image/vision_transformer/hybrid_parallel/dataloader/dali_dataloader.py
+3 −23		image/vision_transformer/hybrid_parallel/train_with_cifar10.py
+3 −36		image/vision_transformer/hybrid_parallel/train_with_engine.py
+3 −36		image/vision_transformer/hybrid_parallel/train_with_trainer.py
+4 −1		language/DeepNet/README.md
+7 −12		language/DeepNet/decoder_configs/deepnet_pp1d.py
+0 −3		language/DeepNet/model/__init__.py
+0 −270		language/DeepNet/model/deepnet_configs.py
+0 −624		language/DeepNet/model/embed.py
+0 −181		language/DeepNet/model/pipeline_deepnet1d.py
+51 −34		language/DeepNet/train_deepnet_decoder.py
+4 −1		language/bert/hybrid_parallel/README.md
+6 −15		language/bert/sequene_parallel/config.py
+50 −73		language/bert/sequene_parallel/data/datasets/bert_dataset.py
+21 −30		language/bert/sequene_parallel/data/datasets/data_samplers.py
+51 −82		language/bert/sequene_parallel/train.py
+4 −1		language/gpt/README.md
+1 −15		language/knowledge_graph_embedding/README.md
+2 −1		requirements.txt