전체 글

경험 정리용 연습장
쿠버네티스

[쿠버네티스] PowerScale(Isilon) SC 및 PVC 생성

이전 포스팅에서 이어짐 CSI 드라이버 설치가 끝났으면 StorageClass와 PersistentVolumeClaim를 생성해서 사용하면 되며, 현재 경로는 csi-powerscale이라고 가정함 1. StorageClass 생성 samples/storageclass/isilon.yaml을 참고하여 생성하면 되는데 주의할 점은 parameters 중 IsiPath에 들어가는 경로의 권한은 직접 스토리지 서버로 들어가서 IsiVolumePathPermissions에 적힌 권한을 수용할 수 있는 권한으로 설정해야함 (IsiVolumePathPermissions의 디폴트 값은 0777) apiVersion: storage.k8s.io/v1 kind: StorageClass metadata: name: isi..

쿠버네티스

[쿠버네티스] PowerScale(Isilon) CSI 드라이버 설치

Dell의 파워스케일 스토리지를 사용해볼 기회가 생겨서 쿠버네티스 클러스터에 적용하는 과정을 정리해봤음 1. 헬름 3.0 설치 (선택) curl https://raw.githubusercontent.com/helm/helm/master/scripts/get-helm-3 | bash 2. 디폴트 스냅샷 컨트롤러 설치 (선택) git clone https://github.com/kubernetes-csi/external-snapshotter/ cd ./external-snapshotter git checkout release-6.2 kubectl kustomize client/config/crd | kubectl create -f - kubectl -n kube-system kustomize deploy/k..

우분투

[우분투] 재귀적으로 파일 및 폴더 제거

├── np4-bs256-da0-node4 │ ├── checkpoint.1.pth.tar (target_file) │ ├── checkpoint.2.pth.tar (target_file) │ ├── nccl (target_dir) │ └── torch.log ├── np4-bs256-da2-node5 │ ├── checkpoint.1.pth.tar (target_file) │ ├── checkpoint.2.pth.tar (target_file) │ ├── nccl (target_dir) │ └── torch.log ├── np4-bs256-da1-node6 │ ├── checkpoint.1.pth.tar (target_file) │ ├── checkpoint.2.pth.tar (target_file) ..

딥러닝

[딥러닝] 멀티 노드 학습 (accelerate, deepspeed-zero3, infiniband-RDMA)

환경 - Infiniband 드라이버 설치 --> 참고 - OS 및 GPU 드라이버에 맞는 CUDA toolkit 설치 --> 참고 - Accelerate로 실행 가능한 pytorch 학습 파일 (train.py) --> 참고 - NCCL 및 HPC-X 설치 (HPC-X 압축해제 후 경로를 HPCX_HOME 환경변수에 등록) - pdsh 설치 및 아래 라이브러리 설치 --extra-index-url https://download.pytorch.org/whl/cu118 torch==2.0.1 transformers==4.33.1 evaluate==0.4.0 scikit-learn==1.2.2 accelerate==0.20.3 sentencepiece==0.1.99 protobuf==4.24.0 - Deep..

우분투

[우분투] 데스크탑 버전에서 서버 버전으로 변경

1. 우분투 서버에 필요한 패키지 설치 sudo apt install ubuntu-server sudo reboot 2. multi-user로 default target 변경 그래픽 세션을 시작하지 않음으로써 RAM 및 CPU 리소스를 절약 sudo systemctl set-default multi-user.target sudo reboot 3. 필요 없는 패키지 삭제 sudo apt purge ubuntu-desktop -y && sudo apt autoremove -y && sudo apt autoclean sudo reboot

IntegerString
코딩 연습장