이슈를 작성하게 된 계기
Accelerate와 DeepSpeed를 이용하여 멀티 노드 학습을 실험하려고 했는데 Accelerate config의 main_process_ip 부분을 제대로 인식하지 않아 통신을 초기화하는 과정에서 오류가 발생해 학습 진행이 불가능해지는 버그를 발견함
답변
처음엔 args나 env를 프린트해달라고 했지만 후엔 관련 코드 경로를 알려줄테니까 직접 코드를 수정해보면서 디버깅을 해달라고 요청함
해결
디버깅을 해보니 deepspeed_multinode_launcher가 pdsh인 경우 deepspeed 실행 커맨드에 --master_addr를 추가해주는 코드가 빠져있던게 원인이었음
이 코드를 추가하여 정상적으로 동작하는 것을 확인한 후 PR을 보냄
대단한 코드를 추가해준건 아니지만 개발자 인생 처음으로 오픈소스에 기여해본 경험이었음!
이슈 링크
'깃' 카테고리의 다른 글
[깃] 이슈 정리: Copy License not working (0) | 2024.06.05 |
---|---|
[깃] 이슈 정리: Numpy reader test (GDS) (0) | 2024.05.30 |
[깃] 이슈 정리: How to use multiple HCA? (0) | 2024.05.30 |
[깃] 빗버킷 파이프라인으로 AWS ECR 및 Lambda에 배포 (0) | 2023.03.21 |
[깃] 자주 쓰는 명령어 (1) | 2021.04.01 |