초고가 GPU 없어도 효율적 AI 학습시킨다
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
국내 연구진이 고가의 데이터센터급 그래픽처리장치(GPU)나 고속 네트워크 없이도 인공지능(AI) 모델을 효율적으로 학습할 수 있는 기술을 개발했다.
KAIST는 한동수 전기및전자공학부 교수 연구팀이 일반 소비자용 GPU를 활용해 네트워크 대역폭이 제한된 분산 환경에서도 AI 모델 학습을 수십에서 수백 배 가속할 수 있는 기술을 개발했다고 19일 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
국내 연구진이 고가의 데이터센터급 그래픽처리장치(GPU)나 고속 네트워크 없이도 인공지능(AI) 모델을 효율적으로 학습할 수 있는 기술을 개발했다. 자원이 제한된 기업이나 연구자들이 AI 연구를 보다 효과적으로 수행하는 데 도움이 될 것으로 기대된다.
KAIST는 한동수 전기및전자공학부 교수 연구팀이 일반 소비자용 GPU를 활용해 네트워크 대역폭이 제한된 분산 환경에서도 AI 모델 학습을 수십에서 수백 배 가속할 수 있는 기술을 개발했다고 19일 밝혔다. 이번 연구는 8월 호주 시드니에서 열린 국제 학술대회 ‘ACM 시그콤(SIGCOMM) 2024’에서 발표됐다.
기존에는 AI 모델을 학습하기 위해 개당 수천만 원에 달하는 고성능 서버용 GPU 여러 대와 이들을 연결하기 위한 400Gbps(초당 기가비트)급 고속 네트워크를 가진 고가 인프라가 필요했다. 소수 기업을 제외한 대다수 기업과 연구자들은 비용 문제로 고가 인프라를 도입하기 어려웠다.
한 교수 연구팀은 '스텔라트레인'이란 분산 학습 프레임워크를 개발했다. 이 기술은 엔비디아의 고성능 GPU H100에 비해 10~20배 저렴한 소비자용 GPU를 활용한다. 고속의 전용 네트워크 대신 대역폭이 수백에서 수천 배 낮은 일반 인터넷 환경에서도 효율적인 분산 학습이 가능하다.
기존의 저가 GPU를 사용할 경우 GPU 메모리가 작고 네트워크 속도가 제한돼 대규모 AI 모델 학습 시 속도가 수백 배 느려지는 한계가 있었다. 연구팀이 개발한 스텔라트레인 기술은 CPU와 GPU를 병렬로 활용해 학습 속도를 높이고 네트워크 속도에 맞춰 데이터를 효율적으로 압축 및 전송하는 알고리즘을 적용해 고속 네트워크 없이도 여러 대의 저가 GPU를 이용해 빠른 학습을 가능하게 했다.
특히 학습을 작업 단계별로 CPU와 GPU가 나누어 병렬적으로 처리할 수 있는 새로운 파이프라인 기술을 도입해 연산 자원의 효율을 극대화했다. 원거리 분산 환경에서도 GPU 연산 효율을 높이기 위해 AI 모델별 GPU 활용률을 실시간으로 모니터링해 모델이 학습하는 샘플의 개수(배치 크기)를 동적으로 결정하고 변화하는 네트워크 대역폭에 맞추어 GPU 간의 데이터 전송을 효율화하는 기술을 개발했다.
연구 결과 스텔라트레인 기술을 사용하면 기존의 데이터 병렬 학습에 비해 최대 104배 빠른 성능을 낼 수 있는 것으로 나타났다.
한동수 교수는 "이번 연구가 대규모 AI 모델 학습을 누구나 쉽게 접근할 수 있게 하는 데 크게 기여할 것"이라며 “앞으로도 저비용 환경에서도 대규모 AI 모델을 학습할 수 있는 기술 개발을 계속 할 계획”이라고 말했다..
한 교수 연구팀은 앞서 지난 7월 GPU 메모리 한계를 극복해 소수의 GPU로 거대 언어 모델을 학습하는 새로운 기술도 발표했다. 최신 거대 언어 모델의 기반이 되는 전문가 혼합형 모델을 제한된 메모리 환경에서도 효율적인 학습을 가능하게 한다.
이 기술을 활용하면 기존에 32~64개 GPU가 필요한 150억 파라미터 규모의 언어 모델을 단 4개의 GPU만으로도 학습할 수 있게 됐다. 이를 통해 학습의 필요한 최소 GPU 대수를 8배~16배 낮출 수 있게 됐다.
[박정연 기자 hesse@donga.com]
Copyright © 동아사이언스. 무단전재 및 재배포 금지.