이슈를 작성하게 된 계기HCA(InfiniBand NIC)가 여러 개 장착된 두 서버를 이용하여 멀티 노드 학습을 실험하고 있었음NCCL_IB_HCA 환경 변수에 여러 개를 할당해도 계속 하나의 HCA만 사용하는 것이 의아하여 이슈를 작성함 답변NCCL이 2개의 HCA를 사용하지 않는 이유는 시스템에 다른 병목 현상이 존재하기 때문임2개의 HCA를 사용하도록 강제하려면 토폴로지(xml)에서 port speed를 절반으로 직접 수정 후 NCCL_TOPO_FILE 환경 변수에 경로를 넣어주면 되지만 2개의 HCA를 사용하면 4개의 GPU SM을 사용하게 되므로 학습과 관련된 계산 자원이 줄어들게 됨따라서 NCCL은 GPU의 SM 사용을 최적화하기 위해 가능한 최소한의 NIC를 사용하려고 함 해결답변대로 토폴..
설정 확인 (--list) git config -l 설정에 사용자 이름 및 이메일 추가 (--global 옵션을 추가하면 사용자의 모든 저장소에 적용) git config user.name "{name}" git config user.email "{email}" 현재 상태 확인 (수정된 파일 확인) git status 브랜치 목록 확인 git branch 브랜치 이동 git checkout {branch} 브랜치 생성 후 이동 git checkout -b {branch} 변경된 파일들을 모두 스테이징 영역에 추가 git add . 스테이징 영역에 있는 변경사항을 커밋 git commit -m "{message}" 푸시 git push {remote repository} {branch} 원하는 커밋으로 돌..