전체 글

경험 정리용 연습장
프로젝트

RAX

보호되어 있는 글입니다.

쿠버네티스

[쿠버네티스] VAST Data CSI 드라이버 설치

1. 헬름 3 설치 (선택)curl https://raw.githubusercontent.com/helm/helm/master/scripts/get-helm-3 | bash 2. 스냅샷 CRD 설치 (선택)kubectl apply -f https://raw.githubusercontent.com/kubernetes-csi/external-snapshotter/v6.0.1/client/config/crd/snapshot.storage.k8s.io_volumesnapshotclasses.yamlkubectl apply -f https://raw.githubusercontent.com/kubernetes-csi/external-snapshotter/v6.0.1/client/config/crd/snapshot...

딥러닝

[딥러닝] Accelerate와 DeepSpeed를 이용한 LLM 멀티 노드 학습

준비 사항- NVIDIA Driver 545 버전 이상이 설치된 두 개의 우분투 서버- Docker + NVIDIA Container Toolkit- 두 서버가 통신 가능한 인터페이스 이름이 같아야함 (다르다면 pdsh 사용이 불가능하고 standard 방식으로 각 노드에서 NCCL_SOCKET_IFNAME를 설정 후 학습 명령어를 입력해야함) 사전 학습된 모델 다운로드- (학습에 사용하려는 두 서버 모두)- 허깅 페이스에 업로드 된 텍스트 생성 모델 중 Meta-Llama-3-8B를 사용 할 예정- 허깅 페이스 엑세스 토큰 생성 및 사용하려는 모델에 엑세스 권한 요청이 필요함- ~/volume/pretrained-models/ 디렉터리를 만든 후 디렉터리 내부에서 모델을 깃 클론- 모든 safetens..

[깃] 이슈 정리: NCCL Error on Multi-Node Training with Mixed GPU Setup

이슈를 작성하게 된 계기DGX-H100과 다른 GPU 서버들을 이용하여 멀티 노드 학습 실행 시 NCCL Error가 발생함 답변1. 최신 버전의 NCCL을 사용해서 다시 시도2. 그래도 안되면 세 서버의 NCCL INFO 로그가 필요함 해결DGX서버만 NVlink Switch가 있어서 패킷을 주고 받을 때 오류가 발생했던 것으로 추정됨DGX서버의 명령어에만 NCCL_NVLS_ENABLE=0을 추가해 NVLink SHARP를 꺼주니 오류 없이 학습됨 이슈 링크https://github.com/NVIDIA/nccl/issues/1366 NCCL Error on Multi-Node Training with Mixed GPU Setup · Issue #1366 · NVIDIA/ncclDescription He..

[깃] 이슈 정리: Error creating new device

이슈를 작성하게 된 계기Network Operator 사용법을 질문함 답변1. RDMA 디바이스를 사용하려는 파드에 resource를 추가해야함 --> rdma/rdma_shared_device_a: 1 (값은 1개만 지정하면 됨)2. multus + macvlan cni를 사용해 network-attachment-definitions CRD를 생성 후 파드에 annotation를 추가해야함 --> k8s.v1.cni.cncf.io/networks: rdma-net-ipam 해결도큐먼트를 참고하여 파드 스펙을 다시 작성함 이슈 링크https://github.com/Mellanox/k8s-rdma-shared-dev-plugin/issues/108 Error creating new device · Issu..

IntegerString
코딩 연습장