infiniband

우분투

[우분투] 인피니밴드 인터페이스 이름 변경

1. IPoIB 인터페이스 하드웨어 주소 확인 ip a | grep ib 2. 설정 파일 (/etc/udev/rules.d/70-persistent-ipoib.rules) 수정 # This is a sample udev rules file that demonstrates how to get udev to # set the name of IPoIB interfaces to whatever you wish. There is a # 16 character limit on network device names. # # Important items to note: ATTR{type}=="32" is IPoIB interfaces, and the # ATTR{address} match must start with ..

우분투

[우분투] 인피니밴드 모드 변경

인피니밴드 드라이버(MLNX_OFED)는 설치되어 있다고 가정 (설치가 필요한 경우 참고) 1. MFT 시작 sudo mst start 2. vendor_part_id 확인 ibv_devinfo | grep vendor_part_id 3. 디바이스 설정 확인 (그랩을 통해 포트별 링크 타입만 확인 가능) sudo mlxconfig -d /dev/mst/{VENDOR_PART_ID} q sudo mlxconfig -d /dev/mst/{VENDOR_PART_ID} q | grep LINK_TYPE 4. 설정 변경 (TYPE_NUM: 0은 인피니밴드, 1은 이더넷) mlxconfig -d /dev/mst/{VENDOR_PART_ID} set LINK_TYPE_P1={TYPE_NUM} 5. 재부팅 sudo r..

딥러닝

[딥러닝] 멀티 노드 학습 (accelerate, deepspeed-zero0, infiniband-IPoIB)

환경 - Infiniband 드라이버 설치 및 IP 할당 (master: 192.168.12.1, worker-1: 192.168.12.2) --> 참고 - NCCL_SOCKET_IFNAME라는 환경변수를 통해서 인터페이스 이름을 설정 가능 --> 참고 - OS 및 GPU 드라이버에 맞는 CUDA toolkit 설치 --> 참고 - Accelerate로 실행 가능한 pytorch 학습 파일 (train_multi.py) --> 참고 - pdsh 설치 및 아래 라이브러리 설치 --extra-index-url https://download.pytorch.org/whl/cu118 torch==2.0.1 transformers==4.30.2 evaluate==0.4.0 scikit-learn==1.2.2 acc..

우분투

[우분투] 인피니밴드 드라이버 설치 및 IP 할당

인피니밴드 드라이버 설치 1. [master, worker] 인피니밴드 컨트롤러 확인: lspci | grep -i mellanox 2. [master, worker] 공식 홈페이지(Linux InfiniBand Drivers)에서 OS 및 컨트롤러 버전에 맞는 드라이버(MLNX_OFED)를 다운로드 3. [master, worker] 압축 해제 tar xvf MLNX_OFED_LINUX-5.8-3.0.7.0-ubuntu22.04-x86_64.tgz 4. [master, worker] 설치 4.1. 폴더 내부로 이동 cd MLNX_OFED_LINUX-5.8-3.0.7.0-ubuntu22.04-x86_64 4.2. force 옵션을 추가하여 드라이버 설치에 필요한 패키지 설치 및 펌웨어 업데이트도 같이 진..

IntegerString
'infiniband' 태그의 글 목록