[BUG]: colossalai run is stuck during multi-nodes training

### 🐛 Describe the bug

When using colossalai run during multi-nodes training, it's stuck before initializing distributed process group.

This is because potentially wrong launch command.

### Environment

Python 3.8.0
torch 1.12.1+cu113
CUDA 11.4