문제 상황학습 시작 시 아래와 같은 에러 발생RuntimeError: device >= 0 && device 환경- OS: Ubuntu 20.04.6 LTS- Python: v3.8.10- Torch: v2.0.1- CUDA: v11.7- GPU: A100 * 2 (MIG 적용) 해결- Single GPU 학습환경변수 CUDA_VISIBLE_DEVICES를 0으로 세팅해주니 해결됨export CUDA_VISIBLE_DEVICES=0 - Multi GPU 학습아직 CUDA 11과 12는 하나의 프로세스에 오직 하나의 MIG 인스턴스만 사용할 수 있으므로 불가능...참고로 CUDA 11부터 A100 MIG, CUDA 12부터 H100 MIG 사용이 가능함 참고 1: https://github.com/py..
import docker 필요한 라이브러리 임포트 (https://docker-py.readthedocs.io/en/stable) def add_unit(mem: float) -> str: if mem > 1024**3: mem = round(mem / 1024**3, 2) mem = f"{mem}GiB" elif mem > 1024**2: mem = round(mem / 1024**2, 2) mem = f"{mem}MiB" elif mem > 1024: mem = round(mem / 1024, 2) mem = f"{mem}KiB" else: mem = round(mem, 2) mem = f"{mem}Byte" return mem 데이터 단위를 붙여주기 위한 함수 client = docker.Docke..
import GPUtil 필요한 라이브러리 임포트 (https://github.com/anderskm/gputil) def add_unit(mem: float) -> str: if mem > 1024: mem = round(mem / 1024, 2) mem = f"{mem}GiB" else: mem = round(mem, 2) mem = f"{mem}MiB" return mem 데이터 단위를 붙여주기 위한 함수 for gpu in GPUtil.getGPUs(): gpu_util = f"{gpu.load}%" mem_total = add_unit(gpu.memoryTotal) mem_used = add_unit(gpu.memoryUsed) mem_used_percent = f"{round(gpu.memor..
import os import re import time import socket from urllib.request import urlretrieve from urllib.error import HTTPError, URLError from selenium import webdriver from selenium.common.exceptions import ( ElementClickInterceptedException, NoSuchElementException, ElementNotInteractableException, ) from PIL import Image from pygame import mixer from datetime import date from concurrent.futures import..