추론 AI 시대 ‘AI 가속기’ 본격화 [테크리포트]

AWS·MS 등 빅테크 ‘자체 칩’ 배치 나서
리벨리온·퓨리오사AI 국내 진영도 가세

생성형 인공지능(AI) 시대 이후 '그래픽처리장치(GPU)'는 AI 시대 경쟁력을 확보하기 위한 핵심 자원으로 부상했다. 하지만 AI가 연구소를 넘어 산업으로 확장되고 소비 위주, 추론 중심으로 수요가 확대되면서 GPU 중심 시장에 변화가 일고 있다. 기업들이 자체 AI 모델을 구축하기보다는 기존 모델의 미세 조정 정도로 효율적인 구축을 도모하면서 GPU보다 높은 효율을 제공할 수 있는 'AI 가속기' 시장 경쟁이 본격화하고 있다. 이미 글로벌 대형 클라우드 사업자(하이퍼스케일러)들은 물론, 외부 독립 개발사들도 가속기 시장에서 성과를 내는 모습이다.

추론 위주 서비스에 최적화한 빅테크들의 자체 가속기들

생성형 AI 시대 이후 AI 워크로드를 빠르게 처리하기 위해서는 'GPU'가 필수인 것처럼 여겨져 왔다. 하지만 지금까지 수십년간 이어져 온 집적회로(IC)의 역사에서 언제나 효율성의 정답은 필요한 부분만 갖춘 '가속기'였다. 지금까지 GPU가 주목받아 온 것은 생성형 AI 과도기의 빠른 변화라는 특수 상황 때문이었다. 주력 모델 구조가 빠르게 바뀌는 상황에서 GPU는 성능과 유연성, 비용을 어느 정도 절충해 변화에 대응할 수 있는 효과적인 선택이었다.

AI 인프라에서 GPU 주도의 시대가 바뀌기 위해서는 몇 가지 전제 조건이 필요했다. 먼저 모델의 다양성 측면이 어느 정도 예측 가능한 범위 안에 와야 한다. 이 부분은 주요 파운데이션 모델들이 트랜스포머 기반의 몇 가지 정도로 압축되기 시작했다. 소프트웨어 지원 측면도 시장을 주도하는 빅테크 기술 기업이 지원하는 오픈소스 생태계를 중심으로 움직이기 시작했다. 하드웨어에서 서비스에 이르는 모든 단계를 '풀 스택'으로 구성해서 '서비스'형으로 제공하면서 소프트웨어 생태계 확장성 측면도 해결한 모습이다.

AWS나 마이크로소프트, 구글 등 대형 클라우드 사업자들이 전용 가속기를 들고 나온 것도 이러한 시대 변화에 따른 것이다. 자체적인 서비스 스택과 모델에 하드웨어를 최적화해, 사용자들은 꼭 GPU가 아니더라도 비슷한 사용 방법으로 필요한 성능을 얻을 수 있다. 서비스를 제공하는 입장에서는 실제 서비스에 제대로 활용되지 않는 요소들을 칩 위에서 제거함으로써 낭비 요소를 줄이고 비용 효율을 더 올릴 수 있게 된다. 앞으로 AI 서비스의 토큰 수요가 늘고 효율이 중요해짐에 따라, 최적화된 가속기의 가치도 더 높아질 것으로 보인다.

하이퍼스케일러들의 자체 가속기는 설계에서부터 주요 모델들의 추론 용도에 특화해 GPU보다 높은 성능 효율을 만들어내는 데 유리하다. 자체 가속기 설계에서 현실적인 문제로 다가오는 생산량 문제는 글로벌 차원의 서비스 규모로 해결하고, 소프트웨어 지원도 인프라에서 모델, 애플리케이션에 이르는 '풀 스택 서비스'로 자체 해결할 수 있다. 이러한 이유로 자체 가속기의 투입은 각 사의 AI 서비스 비용을 최적화하고 경쟁력을 강화방안으로 주목받고 있다.

주요 글로벌 하이퍼스케일러급 클라우드 사업자로 꼽히는 AWS와 마이크로소프트, 구글은 모두 자체 'AI 가속기'를 이미 실제 서비스에 배치하고 있다. AWS는 지난 12월 'AWS 리인벤트 2025'에서 자체 설계한 '트레이니움3(Trainium3)' 칩을 공식 발표했다. 이 칩은 FP8 수준의 모델에 최적화돼 FP8 기준 2.5페타플롭스(PFlops) 정도의 성능을 보인다. BF16 성능 대비 FP8의 성능이 4배 정도 오르는 모습으로 FP8 추론에 최적화된 설계임을 짐작할 수 있고, FP8 덴스(Dense) 기준 엔비디아의 H100보다 27% 정도 성능이 높다.

구글 클라우드는 지난 11월 7세대 TPU(Tensor Processing Unit) '아이언우드(Ironwood)'를 공식 발표했다. 성능은 FP8 기준 4.6페타플롭스 정도로 AWS 트레이니움보다 83% 정도 높고, BF16 성능은 FP8의 절반 정도로 AWS 트레이니움3보다 3.4배까지 높다. 데이터 형식별 성능 추이로 보면 AWS나 마이크로소프트의 가속기보다는 좀 더 정석적인 구조를 가진 모습이다. 구글 클라우드는 이 '아이언우드'를 대규모 모델 학습과 대용량 저지연 추론에서 사용할 계획이다.

최근에는 마이크로소프트도 '마이아 200' 가속기를 공식 발표했다. 이 가속기는 '트레이니움3'나 '아이언우드'보다 좀 더 성능 수준이 높다. 최적화된 환경에서는 엔비디아의 '블랙웰'과 경쟁 가능한 수준이다. '마이아 200'은 1400억개 이상 트랜지스터에 216GB HBM3e 메모리를 갖추고, FP4 기준 '블랙웰'급인 10페타플롭스 성능을 제공한다. FP8과 BF16도 대략 트레이니움3보다는 두 배 가량 높은 성능을 보여준다. 트랜지스터 수로 따지면 2080억개 트랜지스터의 블랙웰 대비 트랜지스터당 효율이 대략 1.4배 정도 높은 셈이다.

이미 주요 AI 개발사들도 특정 회사의 최신 GPU 의존도를 벗어나기 위해 이러한 가속기를 활용하는 시도를 하고 있다. 오픈AI는 엔비디아나 AMD의 GPU 뿐만 아니라 아마존과 AWS '트레이니움' 칩을 활용하는 논의도 진행한 것으로 알려졌다. 마이크로소프트는 '마이아 200'을 GPT-5.2 기반 '마이크로소프트 365 코파일럿' 상용 서비스 등에 투입한다는 계획이다. 앤트로픽은 이미 최신 모델들을 AWS의 '트레이니움2' 기반에서 구축하는 '프로젝트 레이니어'를 진행했고, 구글의 '아이언우드'도 사용할 계획이다.

하이퍼스케일러 밖의 생태계, 생존 핵심 요소는 '풀 스택'

현재 AI 데이터센터 인프라 시장에는 엔비디아나 AMD의 GPU 기반 생태계, 하이퍼스케일러들의 자체 가속기 생태계 이외에도 국내외 몇몇 제조사들이 최신 AI 모델을 위한 가속기를 선보이고 있다. 일반적으로 하이퍼스케일러들의 자체 설계 가속기는 자체 사용을 전제로 만들어져, 서비스형 말고는 자체 구입이나 도입이 어렵다. 하지만 외부 독립 개발사들의 가속기는 몇 가지 전제 조건이 맞춰지면 충분히 GPU를 대체할 현실적 옵션이 될 수 있다.

외부 독립 개발사의 가속기를 사용할 수 있는 환경의 핵심은 최신 모델과 프레임워크 생태계의 지원이며, 좀 더 나아가면 사용자들이 도입해 바로 사용할 수 있는 '풀 스택 솔루션' 구성과 레퍼런스 확보다. 이미 시장의 중심은 몇 가지 파운데이션 모델과 파이토치(PyTorch) 등 오픈소스 기반 프레임워크가 됐고, 이를 원활히 지원할 수 있다면 생태계를 확보하고 경쟁력을 갖출 수 있다. 특히 모델 구축이 아니라 기존 구축된 모델을 사용하는 입장이라면 엔비디아의 '쿠다(CUDA)' 생태계를 고집할 필요가 없다.

외부 개발사들의 가속기 생태계의 핵심은 주요 모델의 구동에 대한 오픈소스 환경 지원이 꼽힌다. 국내외 주요 개발사들의 초기 사례에서는 자체 소프트웨어 개발력을 갖춘 대형 고객사의 확보가 눈에 띈다. 퓨리오사AI는 카카오엔터프라이즈와 LG AI 연구원과의 관계가, 리벨리온은 SK텔레콤과의 관계가 시장 진입에 큰 영향을 줬다.

이미 국내외에 다양한 업체들이 이러한 AI 가속기 생태계에서 두각을 나타내고 있다. 국내에서는 퓨리오사AI가 메타(Meta)의 인수 제안을 받으면서 화제를 모았고, 리벨리온은 사피온과 합병하고 지속적으로 투자를 유치하며 유니콘으로 성장했다. 최근에는 엔비디아도 그록(Groq)과 기술 라이선스 계약을 통해 관련 기술과 인력들을 획득하는 등 업계 전반이 주목받는 모습이다. 퀄컴도 데이터센터급 추론 가속기와 이를 기반으로 한 랙스케일 솔루션을 갖췄고, 인텔의 '가우디' 시리즈도 엄밀히 말하면 '가속기' 생태계로 접근하는 제품이다.

데이터센터급 가속기에서 눈에 띄는 국내 기업은 리벨리온이다. 리벨리온은 자체 설계한 '아톰(ATOM)', '리벨(REBEL)' 시리즈를 상용화하며 생태계 확보를 위한 주요 요건들을 달성했다. 최신 '리벨쿼드(REBEL-Quad)'는 엔비디아 H100 수준의 2페타플롭스 성능을 확보한 대형 가속기다. 리벨리온의 가속기는 현재 SK텔레콤의 에이닷 통화요약 서비스에 활용되면서 중요한 레퍼런스를 확보했고, 오픈소스 생태계 지원을 넘어 레드햇의 오픈시프트 AI 환경에서 공식 지원되면서 가속기에서 인프라, 모델에 이르는 '풀 스택' 접근법도 확보했다.

퓨리오사AI도 최근 2세대 칩 '레니게이드(RNGD)'의 1차 양산을 마치고 공급을 시작했다. 카드 자체는 FP8에서 512테라플롭스 성능으로 최신 대형 GPU나 하이퍼스케일러들의 가속기에 비해 낮지만, 그만큼 작고 전력 소비도 낮다. 퓨리오사AI는 LG AI 연구원과 '레니게이드'를 '엑사원(EXAONE)'에 적용하는 업무협약을 체결한 바 있다. LG CNS의 에이전틱AI 플랫폼 '에이전틱웍스'에도 레니게이드를 적용한다는 계획이다.

한편, 퀄컴의 '클라우드 AI' 시리즈 가속기를 사용한 국내 사례도 있다. 최근 액세스랩은 퀄컴의 '클라우드 AI 100 울트라'와 Arm 기반 프로세서를 사용한 온프레미스 추론 어플라이언스 'V-랩터 Q100'을 선보인다고 밝혔다. 인텔의 '가우디' 또한 국내외에 눈에 띄는 고객 사례를 만든 바 있다. 국내에서는 네이버가 '가우디 2'를 활용한 바 있고, '가우디 3'는 IBM 클라우드에 도입돼 서비스형으로 고객에 제공되고 있다.

권용만 기자

yongman.kwon@chosunbiz.com

IT조선에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

추론 AI 시대 ‘AI 가속기’ 본격화 [테크리포트]