문제 상황
GPU를 사용하는 파이썬 스크립트 실행 시 아래와 같은 에러 발생
RuntimeError: cuda runtime error (802) : system not yet initialized
원인 분석
- nvidia-smi 명령어는 정상적으로 동작하는 것으로 보아, GPU는 감지되고 있었지만 CUDA 환경이 정상적으로 초기화되지 않은 것 같음
- Nvidia Forum을 참고해보니 8개의 GPU가 장착된 서버에 필요한 Fabric Manager 관련 문제라는 것을 알게됨
sudo systemctl status nvidia-fabricmanager
- 위 명령어를 통해 Fabric Manager가 실행되지 않고 있었으며, NVIDIA GPU Driver와의 버전 불일치로 인해 정상적으로 로드되지 못하고 있음을 발견함
less /var/log/apt/history.log
- 위 명령어를 통해 패키지 업그레이드 로그를 확인해보니 unattended-upgrades 서비스에 의해 NVIDIA 관련 패키지가 자동으로 업그레이드된 것을 확인함
해결
- NVIDIA Fabric Manager 재설치
nvidia-fabricmanager을 삭제 후 Nvidia GPU Driver의 버전과 맞는 버전으로 다시 설치함
- 자동 업그레이드 기능 비활성화
아래 명령어를 실행 후 설정 화면에서 No를 선택함
sudo dpkg-reconfigure unattended-upgrades
참고 1: https://forums.developer.nvidia.com/t/error-802-system-not-yet-initialized-cuda-11-3/234955
Error 802: system not yet initialized CUDA 11.3
I’m trying to set up GPUs to work with cuda on AWS. This is the output of nvidia-smi (base) ubuntu@ip-172-31-49-222:~$ nvidia-smi Mon Nov 21 05:05:22 2022 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 470.14
forums.developer.nvidia.com
참고 2: https://chhanz88.github.io/post/2022-05-11-ubuntu-unattended-upgrades/
[Ubuntu] unattended-upgrades 설정 (자동 업데이트)
Ubuntu 22.04
chhanz88.github.io
'딥러닝' 카테고리의 다른 글
[딥러닝] Accelerate와 DeepSpeed를 이용한 LLM 멀티 노드 학습 (1) | 2024.09.25 |
---|---|
[딥러닝] MIG로 분할된 GPU 2개를 이용해 모델 학습 시 런타임 에러 (0) | 2023.06.21 |
문제 상황
GPU를 사용하는 파이썬 스크립트 실행 시 아래와 같은 에러 발생
RuntimeError: cuda runtime error (802) : system not yet initialized
원인 분석
- nvidia-smi 명령어는 정상적으로 동작하는 것으로 보아, GPU는 감지되고 있었지만 CUDA 환경이 정상적으로 초기화되지 않은 것 같음
- Nvidia Forum을 참고해보니 8개의 GPU가 장착된 서버에 필요한 Fabric Manager 관련 문제라는 것을 알게됨
sudo systemctl status nvidia-fabricmanager
- 위 명령어를 통해 Fabric Manager가 실행되지 않고 있었으며, NVIDIA GPU Driver와의 버전 불일치로 인해 정상적으로 로드되지 못하고 있음을 발견함
less /var/log/apt/history.log
- 위 명령어를 통해 패키지 업그레이드 로그를 확인해보니 unattended-upgrades 서비스에 의해 NVIDIA 관련 패키지가 자동으로 업그레이드된 것을 확인함
해결
- NVIDIA Fabric Manager 재설치
nvidia-fabricmanager을 삭제 후 Nvidia GPU Driver의 버전과 맞는 버전으로 다시 설치함
- 자동 업그레이드 기능 비활성화
아래 명령어를 실행 후 설정 화면에서 No를 선택함
sudo dpkg-reconfigure unattended-upgrades
참고 1: https://forums.developer.nvidia.com/t/error-802-system-not-yet-initialized-cuda-11-3/234955
Error 802: system not yet initialized CUDA 11.3
I’m trying to set up GPUs to work with cuda on AWS. This is the output of nvidia-smi (base) ubuntu@ip-172-31-49-222:~$ nvidia-smi Mon Nov 21 05:05:22 2022 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 470.14
forums.developer.nvidia.com
참고 2: https://chhanz88.github.io/post/2022-05-11-ubuntu-unattended-upgrades/
[Ubuntu] unattended-upgrades 설정 (자동 업데이트)
Ubuntu 22.04
chhanz88.github.io
'딥러닝' 카테고리의 다른 글
[딥러닝] Accelerate와 DeepSpeed를 이용한 LLM 멀티 노드 학습 (1) | 2024.09.25 |
---|---|
[딥러닝] MIG로 분할된 GPU 2개를 이용해 모델 학습 시 런타임 에러 (0) | 2023.06.21 |