
딥러닝
[딥러닝] pytorch를 사용하여 GPU로 모델 학습 시 런타임 에러
문제 상황학습 시작 시 아래와 같은 에러 발생RuntimeError: device >= 0 && device 환경- OS: Ubuntu 20.04.6 LTS- Python: v3.8.10- Torch: v2.0.1- CUDA: v11.7- GPU: A100 * 2 (MIG 적용) 해결- Single GPU 학습환경변수 CUDA_VISIBLE_DEVICES를 0으로 세팅해주니 해결됨export CUDA_VISIBLE_DEVICES=0 - Multi GPU 학습아직 CUDA 11과 12는 하나의 프로세스에 오직 하나의 MIG 인스턴스만 사용할 수 있으므로 불가능...참고로 CUDA 11부터 A100 MIG, CUDA 12부터 H100 MIG 사용이 가능함 참고 1: https://github.com/py..