문제 상황GPU를 사용하는 파이썬 스크립트 실행 시 아래와 같은 에러 발생RuntimeError: cuda runtime error (802) : system not yet initialized 원인 분석- nvidia-smi 명령어는 정상적으로 동작하는 것으로 보아, GPU는 감지되고 있었지만 CUDA 환경이 정상적으로 초기화되지 않은 것 같음 - Nvidia Forum을 참고해보니 8개의 GPU가 장착된 서버에 필요한 Fabric Manager 관련 문제라는 것을 알게됨 sudo systemctl status nvidia-fabricmanager- 위 명령어를 통해 Fabric Manager가 실행되지 않고 있었으며, NVIDIA GPU Driver와의 버전 불일치로 인해 정상적으로 로드되지 못하고 ..
준비 사항- NVIDIA Driver 545 버전 이상이 설치된 두 개의 우분투 기반 GPU 서버- Docker + NVIDIA Container Toolkit- 두 서버가 통신 가능한 인터페이스 이름이 같아야함 (다르다면 pdsh 사용이 불가능하고 standard 방식으로 각 노드에서 NCCL_SOCKET_IFNAME를 설정 후 학습 명령어를 입력해야함) 사전 학습된 모델 다운로드(학습에 사용하려는 두 서버 모두) - 허깅 페이스에 업로드 된 텍스트 생성 모델 중 Meta-Llama-3-8B를 사용 할 예정 (GPU 메모리가 충분하지 않다면 bloom-3b를 추천함)- 허깅 페이스 엑세스 토큰 생성 및 사용하려는 모델에 대한 엑세스 권한 요청이 필요함- ~/volume/pretrained-models/..
문제 상황학습 시작 시 아래와 같은 에러 발생RuntimeError: device >= 0 && device 환경- OS: Ubuntu 20.04.6 LTS- Python: v3.8.10- Torch: v2.0.1- CUDA: v11.7- GPU: A100 * 2 (MIG 적용) 해결- Single GPU 학습환경변수 CUDA_VISIBLE_DEVICES를 0으로 세팅해주니 해결됨export CUDA_VISIBLE_DEVICES=0 - Multi GPU 학습아직 CUDA 11과 12는 하나의 프로세스에 오직 하나의 MIG 인스턴스만 사용할 수 있으므로 불가능...참고로 CUDA 11부터 A100 MIG, CUDA 12부터 H100 MIG 사용이 가능함 참고 1: https://github.com/py..