[깃] 이슈 정리: NCCL Error on Multi-Node Training with Mixed GPU Setup

IntegerString 2024. 7. 24. 18:17

이슈를 작성하게 된 계기

DGX-H100과 다른 GPU 서버들을 이용하여 멀티 노드 학습 실행 시 NCCL Error가 발생함

 

답변

1. 최신 버전의 NCCL을 사용해서 다시 시도

2. 그래도 안되면 세 서버의 NCCL INFO 로그가 필요함

 

해결

DGX서버만 NVlink Switch가 있어서 패킷을 주고 받을 때 오류가 발생했던 것으로 추정됨

DGX서버의 명령어에만 NCCL_NVLS_ENABLE=0을 추가해 NVLink SHARP를 꺼주니 오류 없이 학습됨

 

이슈 링크

https://github.com/NVIDIA/nccl/issues/1366

 

NCCL Error on Multi-Node Training with Mixed GPU Setup · Issue #1366 · NVIDIA/nccl

Description Hello, I am testing multi-node training with three servers, each equipped with different GPUs (H1008, A404, L40S*4). During the process, I encountered an NCCL error and seek assistance ...

github.com