[딥러닝] 멀티 노드 학습 (accelerate, deepspeed-zero3, infiniband-RDMA)
환경 - Infiniband 드라이버 설치 --> 참고 - OS 및 GPU 드라이버에 맞는 CUDA toolkit 설치 --> 참고 - Accelerate로 실행 가능한 pytorch 학습 파일 (train.py) --> 참고 - NCCL 및 HPC-X 설치 (HPC-X 압축해제 후 경로를 HPCX_HOME 환경변수에 등록) - pdsh 설치 및 아래 라이브러리 설치 --extra-index-url https://download.pytorch.org/whl/cu118 torch==2.0.1 transformers==4.33.1 evaluate==0.4.0 scikit-learn==1.2.2 accelerate==0.20.3 sentencepiece==0.1.99 protobuf==4.24.0 - Deep..