"비싼 엔비디아칩 안 써도 된다"…국내서 AI학습 신기술 개발

박건희 기자 2024. 9. 19. 09:14
자동요약 기사 제목과 주요 문장을 기반으로 자동요약한 결과입니다.
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.

고가의 GPU(그래픽 처리 장치)나 고속 네트워크 없이도 AI(인공지능) 모델을 학습시킬 수 있는 기술이 국내에서 나왔다.

KAIST(카이스트)는 한동수 전기및전자공학부 교수가 이끄는 연구팀이 미국 UC어바인대 연구팀과 함께 제한된 네트워크 환경에서도 AI 모델 학습 능력을 100배 이상 가속할 수 있는 기술을 개발했다고 19일 밝혔다.

음성재생 설정
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

KAIST 연구팀 '학습능력 100배 가속' 기술 개발
연구팀이 개발한 스텔라트레인 프레임워크 모식도. GPU 활용률을 극대화하고 학습 시간을 단축하기 위해 CPU 기반 그래디언트를 최적화하는 한편 네트워크 상황에 따라 학습 내용의 크기를 실시간으로 조절하는 동적 최적화 기술을 적용했다. /사진=KAIST

고가의 GPU(그래픽 처리 장치)나 고속 네트워크 없이도 AI(인공지능) 모델을 학습시킬 수 있는 기술이 국내에서 나왔다.

KAIST(카이스트)는 한동수 전기및전자공학부 교수가 이끄는 연구팀이 미국 UC어바인대 연구팀과 함께 제한된 네트워크 환경에서도 AI 모델 학습 능력을 100배 이상 가속할 수 있는 기술을 개발했다고 19일 밝혔다.

AI 모델 학습을 위해선 엔비디아 H100 등 값비싼 고성능 서버용 GPU와 이들을 연결하기 위한 400Gbps(초당 기가비트)급 고속 네트워크를 갖춘 고가 인프라가 필요하다. 비용 문제는 IT 분야 중소기업 및 대학연구팀이 연구 인프라를 구축하는 데 가장 큰 걸림돌이라고 알려졌다.

한 교수 연구팀은 분산 학습 프레임워크 '스텔라트레인(StellaTrain)'을 개발했다. 엔비디아 H100의 20분의 1 가격 수준인 소비자용 GPU로 일반 인터넷 환경에서도 효율적으로 AI 학습이 가능하다.

저가 GPU를 사용할 때 AI 학습 속도가 느려지는 이유는 GPU의 메모리가 작고 네트워크 속도에 제한이 있기 때문이다. 연구팀은 CPU(중앙처리장치)와 GPU를 병렬로 활용해 학습 속도를 높였다. CPU와 GPU가 학습 내용을 작업 단계별로 나눠 병렬적으로 처리할 수 있도록 한 것. 또 GPU 간 데이터 전송량을 주변 네트워크 환경에 맞춰 유동적으로 줄이거나 늘릴 수 있도록 했다. 그 결과 고속 네트워크 없이도 여러 대 저가 GPU를 통한 빠른 학습이 가능해졌다.

연구팀이 스텔라트레인 기술을 적용한 결과, 기존 학습 방법에 비해 최대 104배까지 빠른 성능을 낼 수 있는 것으로 나타났다.

연구를 이끈 한 교수는 "이번 연구는 대규모 AI 모델 학습에 누구나 쉽게 접근할 수 있도록 하는 데 크게 기여할 것"이라며 "앞으로도 저비용 환경에서도 대규모 AI 모델을 학습할 수 있는 기술을 계속 개발하겠다"고 밝혔다.

이번 연구는 지난 8월 호주 시드니에서 열린 'ACM SIGCOMM 2024'에서 발표됐다. 과학기술정보통신부 중견연구사업과 정보통신기획평가원(IITP) 정보통신·방송기술개발사업 및 표준개발지원사업, 차세대통신클라우드리더십구축사업, 삼성전자의 지원을 받았다.

한동수 KAIST 전기및전자공학부 교수 /사진=KAIST


박건희 기자 wissen@mt.co.kr

Copyright © 머니투데이 & mt.co.kr. 무단 전재 및 재배포, AI학습 이용 금지

이 기사에 대해 어떻게 생각하시나요?