딥러닝

딥러닝

[딥러닝] Accelerate와 DeepSpeed를 이용한 LLM 멀티 노드 학습

준비 사항- NVIDIA Driver 545 버전 이상이 설치된 두 개의 우분투 서버- Docker + NVIDIA Container Toolkit- 두 서버가 통신 가능한 인터페이스 이름이 같아야함 (다르다면 pdsh 사용이 불가능하고 standard 방식으로 각 노드에서 NCCL_SOCKET_IFNAME를 설정 후 학습 명령어를 입력해야함) 사전 학습된 모델 다운로드- (학습에 사용하려는 두 서버 모두)- 허깅 페이스에 업로드 된 텍스트 생성 모델 중 Meta-Llama-3-8B를 사용 할 예정- 허깅 페이스 엑세스 토큰 생성 및 사용하려는 모델에 엑세스 권한 요청이 필요함- ~/volume/pretrained-models/ 디렉터리를 만든 후 디렉터리 내부에서 모델을 깃 클론- 모든 safetens..

딥러닝

[딥러닝] pytorch를 사용하여 GPU로 모델 학습 시 런타임 에러

문제 상황 학습 시작 시 아래와 같은 에러 발생 RuntimeError: device >= 0 && device

IntegerString
'딥러닝' 카테고리의 글 목록