공용 서버 환경에서 GPU 상태를 모니터링하고, 변경 사항을 Slack으로 알리고, 사용 현황을 시각화하는 경량 도구입니다.
- GPU 상태 로깅:
gpustat을 사용하여 주기적으로 GPU 상태(사용률, 메모리, 온도 등)를 JSONL 형식으로 기록합니다. - Slack 알림: 사용 가능한 GPU 개수에 변동이 생길 때마다 지정된 사용자에게 Slack DM으로 알림을 보냅니다.
- 실시간 시각화: Weights & Biases (wandb)와 연동하여 GPU 사용 현황을 실시간 그래프로 시각화합니다.
- 다중 머신 지원:
--machine-name인자를 통해 여러 서버의 GPU 상태를 개별적으로 모니터링할 수 있습니다.
- 저장소 복제
git clone https://github.com/isl-hjlim/GPUsaver.git
cd GPUsaver- Create and activate the Conda environment.
conda create -n GPUsaver python=3.11 -y
conda activate GPUsaver- Install required packages
pip install -r requirements.txtscript/get_statue.sh # GPU 상태 로깅 시작 (e.g., ./script/get_statue.sh --machine-name A6000)
script/run_guardian.sh # GPU 상태 변경 알림 시작 (e.g., ./script/run_guardian.sh --machine-name A6000)
script/run_visualize.sh # GPU 상태 시각화 (e.g., ./script/run_visualize.sh --logfile logs/log_gpustat_A6000.jsonl)wandb loginGPUsaver/
├── script/
│ ├── get_status.sh
│ └── run_visualize.sh
├── requirements.txt
└── README.md


