이슈를 작성하게 된 계기
DGX-H100과 다른 GPU 서버들을 이용하여 멀티 노드 학습 실행 시 NCCL Error가 발생함
답변
1. 최신 버전의 NCCL을 사용해서 다시 시도
2. 그래도 안되면 세 서버의 NCCL INFO 로그가 필요함
해결
DGX서버만 NVlink Switch가 있어서 패킷을 주고 받을 때 오류가 발생했던 것으로 추정됨
DGX서버의 명령어에만 NCCL_NVLS_ENABLE=0을 추가해 NVLink SHARP를 꺼주니 오류 없이 학습됨
이슈 링크
'깃' 카테고리의 다른 글
[깃] 이슈 정리: Error creating new device (0) | 2024.06.05 |
---|---|
[깃] 이슈 정리: Copy License not working (0) | 2024.06.05 |
[깃] 이슈 정리: Numpy reader test (GDS) (0) | 2024.05.30 |
[깃] 이슈 정리: main_process_ip not working (0) | 2024.05.30 |
[깃] 이슈 정리: How to use multiple HCA? (0) | 2024.05.30 |