딥러닝

딥러닝

[딥러닝] 멀티 노드 학습 (accelerate, deepspeed-zero3, infiniband-RDMA)

환경 - Infiniband 드라이버 설치 --> 참고 - OS 및 GPU 드라이버에 맞는 CUDA toolkit 설치 --> 참고 - Accelerate로 실행 가능한 pytorch 학습 파일 (train.py) --> 참고 - NCCL 및 HPC-X 설치 (HPC-X 압축해제 후 경로를 HPCX_HOME 환경변수에 등록) - pdsh 설치 및 아래 라이브러리 설치 --extra-index-url https://download.pytorch.org/whl/cu118 torch==2.0.1 transformers==4.33.1 evaluate==0.4.0 scikit-learn==1.2.2 accelerate==0.20.3 sentencepiece==0.1.99 protobuf==4.24.0 - Deep..

딥러닝

[딥러닝] 멀티 노드 학습 (accelerate, deepspeed-zero0, infiniband-IPoIB)

환경 - Infiniband 드라이버 설치 및 IP 할당 (master: 192.168.12.1, worker-1: 192.168.12.2) --> 참고 - NCCL_SOCKET_IFNAME라는 환경변수를 통해서 인터페이스 이름을 설정 가능 --> 참고 - OS 및 GPU 드라이버에 맞는 CUDA toolkit 설치 --> 참고 - Accelerate로 실행 가능한 pytorch 학습 파일 (train_multi.py) --> 참고 - pdsh 설치 및 아래 라이브러리 설치 --extra-index-url https://download.pytorch.org/whl/cu118 torch==2.0.1 transformers==4.30.2 evaluate==0.4.0 scikit-learn==1.2.2 acc..

딥러닝

[딥러닝] pytorch를 사용하여 GPU로 모델 학습 시 런타임 에러

문제 상황 학습 시작 시 아래와 같은 에러 발생 RuntimeError: device >= 0 && device

IntegerString
'딥러닝' 카테고리의 글 목록