분류 전체보기

[깃] 이슈 정리: Copy License not working

이슈를 작성하게 된 계기WandB를 온프레미스 버전으로 사용해보기 위해 라이센스를 생성 후 Copy License 버튼을 눌렀는데 클립보드에 아무것도 복사가 되지 않음 답변라이센스가 정상적으로 생성되지 않음현재 라이센스를 삭제시켜줄테니 새로 생성하길 바람 해결라이센스를 새로 발급 받음 이슈 링크https://github.com/wandb/wandb/issues/7625 [Q] Copy License not working · Issue #7625 · wandb/wandbHello, I am trying to set up WandB on my server using Docker. I need a license, but when I click the copy button for the license on th..

[깃] 이슈 정리: Numpy reader test (GDS)

이슈를 작성하게 된 계기Nvidia DALI를 이용해 GDS 기능을 실험하던 중 이해가 되지 않는 결과가 나타나 이에 관련하여 질문함1. GDS 청크 크기가 16M인 경우를 마치 캐싱을 쓴 것과 같은 결과가 나옴2. 데이터셋의 크기가 클수록 첫 에폭 시간이 더 빠름 답변매 측정 전에 디스크 캐시를 청소해야함청크 크기가 작을수록 성능 차이가 발생한다는 결과가 있음GDS 속도는 데이터셋이 매우 작지 않은 이상 영향을 받지 않음DALI는 prefetching을 하기 때문에 이상적인 로딩 시간은 거의 0에 가까움더 자세한 분석을 위해서라면 nsight profile을 사용하길 바람 해결매 측정 전마다 echo 3 | tee /proc/sys/vm/drop_caches으로 캐시를 삭제하니 이상 값은 나오지 않음대..

[깃] 이슈 정리: main_process_ip not working

이슈를 작성하게 된 계기Accelerate와 DeepSpeed를 이용하여 멀티 노드 학습을 실험하려고 했는데 Accelerate config의 main_process_ip 부분을 제대로 인식하지 않아 통신을 초기화하는 과정에서 오류가 발생해 학습 진행이 불가능해지는 버그를 발견함 답변처음엔 args나 env를 프린트해달라고 했지만 후엔 관련 코드 경로를 알려줄테니까 직접 코드를 수정해보면서 디버깅을 해달라고 요청함 해결디버깅을 해보니 deepspeed_multinode_launcher가 pdsh인 경우 deepspeed 실행 커맨드에 --master_addr를 추가해주는 코드가 빠져있던게 원인이었음이 코드를 추가하여 정상적으로 동작하는 것을 확인한 후 PR을 보냄대단한 코드를 추가해준건 아니지만 개발자 ..

[깃] 이슈 정리: How to use multiple HCA?

이슈를 작성하게 된 계기HCA(InfiniBand NIC)가 여러 개 장착된 두 서버를 이용하여 멀티 노드 학습을 실험하고 있었음NCCL_IB_HCA 환경 변수에 여러 개를 할당해도 계속 하나의 HCA만 사용하는 것이 의아하여 이슈를 작성함 답변NCCL이 2개의 HCA를 사용하지 않는 이유는 시스템에 다른 병목 현상이 존재하기 때문임2개의 HCA를 사용하도록 강제하려면 토폴로지(xml)에서 port speed를 절반으로 직접 수정 후 NCCL_TOPO_FILE 환경 변수에 경로를 넣어주면 되지만 2개의 HCA를 사용하면 4개의 GPU SM을 사용하게 되므로 학습과 관련된 계산 자원이 줄어들게 됨따라서 NCCL은 GPU의 SM 사용을 최적화하기 위해 가능한 최소한의 NIC를 사용하려고 함 해결답변대로 토폴..

쿠버네티스

[쿠버네티스] PowerScale(Isilon) SC 및 PVC 생성

이전 포스팅에서 이어짐CSI 드라이버 설치가 끝났으면 StorageClass와 PersistentVolumeClaim를 생성해서 사용하면 되며, 현재 경로는 csi-powerscale이라고 가정함 1. StorageClass 생성samples/storageclass/isilon.yaml을 참고하여 생성하면 되는데 주의할 점은 parameters 중 IsiPath에 들어가는 경로의 권한은 직접 스토리지 서버로 들어가서 IsiVolumePathPermissions에 적힌 권한을 수용할 수 있는 권한으로 설정해야함 (IsiVolumePathPermissions의 디폴트 값은 0777)apiVersion: storage.k8s.io/v1kind: StorageClassmetadata: name: isilon-..

IntegerString
'분류 전체보기' 카테고리의 글 목록 (2 Page)