엔비디아발 GPU 지연에 부각되는 `GPU 최적화 솔루션`?
하드웨어보다 비용 저렴…단시간 교체도 가능해져
엔비디아의 차세대 인공지능(AI) 반도체 '블랙웰' 최신 버전 출시가 예정보다 수 개월가량 늦어질 수 있다는 발표가 나오면서 한때 마약보다 구하기 어렵다던 '그래픽처리장치(GPU) 공급 부족 사태'가 다시 발생할 수 있다는 악몽이 다시 수면 위로 떠오르고 있다. 시장점유율 80%를 차지하는 엔디비아의 AI 칩을 대신할 제조업체들의 약진이 두드러지고 있기 때문이다. 특히 국내의 경우 AI 연산에 필수인 GPU 부족으로 개발 프로젝트가 제자리걸음인 기업이 많아 때문에 상황이 더욱 극박한 셈이다. 이에 GPU 최적화 솔루션이 대안으로 떠오르고 있다.
최근 소프트웨어정책연구소(SPRi)가 지난해 AI 관련 기업 2354개를 전수조사한 '2023년 인공지능산업 실태조사'에 따르면 국내 주요 1441개 AI 기업이 보유한 엔비디아의 주력 AI 칩 H100은 지난해 말 기준으로 1961개에 불과한 것으로 나타났다. 마이크로소프트(MS)와 메타가 지난해 각각 15만개의 H100을 구입한 것과 비교하면 초라한 수준이다.
엔비디아는 AI 컴퓨터에 들어가는 핵심 부품을 독점적으로 공급하고 있다. 표적인 부품이 'AI 가속기'로 GPU와 고대역폭메모리(HBM) 등으로 구성된다. 이런 핵심 부품 시장을 엔비디아가 독점하다시피 하고 있는 것이다.
AI 확산에 따라 AI 가속기에 대한 수요가 급증한 데 반해 공급처는 사실상 엔비디아 하나인 셈이다. 문제는 수요만큼 공급이 따라주지 못한다는 점이다. 이런 엔비디아 영향력에서 벗어나기 위한 빅테크들의 합종연횡도 본격화하고 있지만 쉽지 않은 모양새다. 이에 'GPU 공급 부족 사태'를 막기 위해 AI 기업들이 GPU 최적화를 돕는 소프트웨어(SW) 솔루션을 출시하며 발 빠르게 나서고 있다.
최근 글로벌 IT 기업 IBM은 최근 애플리케이션 자원 관리(ARM) 솔루션인 IBM 터보노믹(IBM Turbonomic)에 생성형 AI를 위한 대형언어모델(LLM) 모델 추론 실행을 하기 위해 GPU 최적화 기능을 추가했다. 기업들은 GPU 최적화 기능을 통해 성능 저하 없이 GPU 워크로드의 가용성을 높일 수 있다.
기업들이 리소스에 GPU를 정확하게 할당하기 어려워 과도하게 할당(프로비저닝)하는 경우가 많은데, IBM 터보노믹은 다차원의 성능 데이터 분석으로 필요한 만큼 GPU 리소스를 공급할 수 있도록 추천하고 할당을 자동화할 수 있도록 돕는다. 이는 비용 절감뿐만 아니라 운영자의 업무 효율성 개선도 지원한다.
그간 서버·스토리지와 같이 하드웨어(HW) 상에서 GPU 성능 최적화를 돕는 제품들은 존재했지만 현실적으로 단시간 내에 하드웨어를 교체하는 것은 어려웠다. 반면 소프트웨어는 비교적 쉽게 교체가 가능하기 때문이다.
소프트웨어 업계 관계자는 "하드웨어 상에서 GPU 성능 최적화를 하게 되면 기업들이 그만큼 예산을 많이 써야 한다"며 "노트북을 예시로 들면 소프트웨어의 경우 디스크를 정리하듯 백그라운드에 돌아가는 프로그램을 정리하는 것과 같다면 하드웨어의 경우 노트북 전체를 가는 것과 같다"고 설명했다.
실제 IBM 리서치 소속 빅 AI 모델(BAM) 연구소에서 GPU 최적화 기능을 적용한 결과, GPU 리소스 용량이 3.3배 증가한 것으로 나타났다. IBM 관계자는 "터보노믹을 통해 LLM 추론 서버를 확장 및 축소할 수 있게 되면서 성능 모니터링에 소요되는 시간을 줄일 수 있었다"며 "전 세계 사용자들 대상으로 모델 실행의 평균 응답 시간이 단축되었고 이를 통해 더 빠른 속도록 혁신할 수 있게 됐다"고 말했다.
국내에서는 한국 스타트업 프렌들리AI는 '프렌들리AI 서버리스 엔드포인트(Friendli Serverless Endpoints)'라는 솔루션을 출시했다. 연구 개발자들이 인프라 관리를 신경 쓸 필요 없이 생성 AI 모델들을 쉽게 사용할 수 있도록 지원하는 소프트웨어다.
AI 분야에서 '학습' 영역은 단기간동안 집중적으로 대용량·고사양의 GPU를 필요로 한다. 이후 '추론' 영역은 적은 양의 GPU를 끊김 없이 상시 사용해야 하는 특성을 갖고 있다. 이 때문에 학습에 사용한 인프라를 그대로 추론 인프라로 활용하면 필요 이상의 비용 부담이 발생한다. 프렌들리AI는 초거대 AI 모델의 효율적인 추론을 가능하게 하는 시스템을 개발해 GPU 최적화 등의 문제해결을 지원한다.
IBM 관계자는 "GPU의 경우 엔디비아 및 몇몇 기업들이 독점하면서 기업에서의 물량 부족은 물론 국가적으로도 문제가 이미 되고 있는데, AI 산업에서 GPU를 빼놓고는 이야기할 수 없다"며 "이미 지난 5~6월부터 업계 전반적으로 수급이 어렵다는 이야기가 나오고 있기 때문에 GPU 최적화 솔루션을 사용한다면 비용적으로 절감은 물론 수급 부족 문제도 해결이 될 것"이라고 강조했다.
유진아기자 gnyu4@dt.co.kr
Copyright © 디지털타임스. 무단전재 및 재배포 금지.
- "2미터 점프해서 확 물더라"...산책 중 들개 2마리에 물린 60대
- 활짝 웃은 `삐약이` 신유빈…한국탁구, 16년 만에 여자단체 동메달
- 지인 차량에 40대 여성 감금하고 폭행…50대 남성 구속
- 컵 하나 더 달라더니, 카페서 맥주 마신 진상들…항의하니 "사장 말투 거슬린다"
- `강남 오피스텔 모녀살인` 박학선, 첫 재판서 "우발적 범행이었다" 주장
- 韓 "여야의정 제안 뒤집고 가상자산 뜬금 과세… 민주당 관성적 반대냐"
- [트럼프 2기 시동] 트럼프, 김정은과 협상할까… "트럼프 일방적 양보 안 할 것"
- 내년 세계성장률 3.2→3.0%… `트럼피즘` 美 0.4%p 상승
- `범현대 3세` 정기선 수석부회장, HD현대 방향성 주도한다
- "AI전환과 글로벌경쟁 가속… 힘 합쳐 도약 이뤄야"