추론 AI 시대 ‘AI 가속기’ 본격화 [테크리포트]
리벨리온·퓨리오사AI 국내 진영도 가세

추론 위주 서비스에 최적화한 빅테크들의 자체 가속기들
생성형 AI 시대 이후 AI 워크로드를 빠르게 처리하기 위해서는 'GPU'가 필수인 것처럼 여겨져 왔다. 하지만 지금까지 수십년간 이어져 온 집적회로(IC)의 역사에서 언제나 효율성의 정답은 필요한 부분만 갖춘 '가속기'였다. 지금까지 GPU가 주목받아 온 것은 생성형 AI 과도기의 빠른 변화라는 특수 상황 때문이었다. 주력 모델 구조가 빠르게 바뀌는 상황에서 GPU는 성능과 유연성, 비용을 어느 정도 절충해 변화에 대응할 수 있는 효과적인 선택이었다.
AI 인프라에서 GPU 주도의 시대가 바뀌기 위해서는 몇 가지 전제 조건이 필요했다. 먼저 모델의 다양성 측면이 어느 정도 예측 가능한 범위 안에 와야 한다. 이 부분은 주요 파운데이션 모델들이 트랜스포머 기반의 몇 가지 정도로 압축되기 시작했다. 소프트웨어 지원 측면도 시장을 주도하는 빅테크 기술 기업이 지원하는 오픈소스 생태계를 중심으로 움직이기 시작했다. 하드웨어에서 서비스에 이르는 모든 단계를 '풀 스택'으로 구성해서 '서비스'형으로 제공하면서 소프트웨어 생태계 확장성 측면도 해결한 모습이다.
AWS나 마이크로소프트, 구글 등 대형 클라우드 사업자들이 전용 가속기를 들고 나온 것도 이러한 시대 변화에 따른 것이다. 자체적인 서비스 스택과 모델에 하드웨어를 최적화해, 사용자들은 꼭 GPU가 아니더라도 비슷한 사용 방법으로 필요한 성능을 얻을 수 있다. 서비스를 제공하는 입장에서는 실제 서비스에 제대로 활용되지 않는 요소들을 칩 위에서 제거함으로써 낭비 요소를 줄이고 비용 효율을 더 올릴 수 있게 된다. 앞으로 AI 서비스의 토큰 수요가 늘고 효율이 중요해짐에 따라, 최적화된 가속기의 가치도 더 높아질 것으로 보인다.

주요 글로벌 하이퍼스케일러급 클라우드 사업자로 꼽히는 AWS와 마이크로소프트, 구글은 모두 자체 'AI 가속기'를 이미 실제 서비스에 배치하고 있다. AWS는 지난 12월 'AWS 리인벤트 2025'에서 자체 설계한 '트레이니움3(Trainium3)' 칩을 공식 발표했다. 이 칩은 FP8 수준의 모델에 최적화돼 FP8 기준 2.5페타플롭스(PFlops) 정도의 성능을 보인다. BF16 성능 대비 FP8의 성능이 4배 정도 오르는 모습으로 FP8 추론에 최적화된 설계임을 짐작할 수 있고, FP8 덴스(Dense) 기준 엔비디아의 H100보다 27% 정도 성능이 높다.
구글 클라우드는 지난 11월 7세대 TPU(Tensor Processing Unit) '아이언우드(Ironwood)'를 공식 발표했다. 성능은 FP8 기준 4.6페타플롭스 정도로 AWS 트레이니움보다 83% 정도 높고, BF16 성능은 FP8의 절반 정도로 AWS 트레이니움3보다 3.4배까지 높다. 데이터 형식별 성능 추이로 보면 AWS나 마이크로소프트의 가속기보다는 좀 더 정석적인 구조를 가진 모습이다. 구글 클라우드는 이 '아이언우드'를 대규모 모델 학습과 대용량 저지연 추론에서 사용할 계획이다.
최근에는 마이크로소프트도 '마이아 200' 가속기를 공식 발표했다. 이 가속기는 '트레이니움3'나 '아이언우드'보다 좀 더 성능 수준이 높다. 최적화된 환경에서는 엔비디아의 '블랙웰'과 경쟁 가능한 수준이다. '마이아 200'은 1400억개 이상 트랜지스터에 216GB HBM3e 메모리를 갖추고, FP4 기준 '블랙웰'급인 10페타플롭스 성능을 제공한다. FP8과 BF16도 대략 트레이니움3보다는 두 배 가량 높은 성능을 보여준다. 트랜지스터 수로 따지면 2080억개 트랜지스터의 블랙웰 대비 트랜지스터당 효율이 대략 1.4배 정도 높은 셈이다.

하이퍼스케일러 밖의 생태계, 생존 핵심 요소는 '풀 스택'
현재 AI 데이터센터 인프라 시장에는 엔비디아나 AMD의 GPU 기반 생태계, 하이퍼스케일러들의 자체 가속기 생태계 이외에도 국내외 몇몇 제조사들이 최신 AI 모델을 위한 가속기를 선보이고 있다. 일반적으로 하이퍼스케일러들의 자체 설계 가속기는 자체 사용을 전제로 만들어져, 서비스형 말고는 자체 구입이나 도입이 어렵다. 하지만 외부 독립 개발사들의 가속기는 몇 가지 전제 조건이 맞춰지면 충분히 GPU를 대체할 현실적 옵션이 될 수 있다.
외부 독립 개발사의 가속기를 사용할 수 있는 환경의 핵심은 최신 모델과 프레임워크 생태계의 지원이며, 좀 더 나아가면 사용자들이 도입해 바로 사용할 수 있는 '풀 스택 솔루션' 구성과 레퍼런스 확보다. 이미 시장의 중심은 몇 가지 파운데이션 모델과 파이토치(PyTorch) 등 오픈소스 기반 프레임워크가 됐고, 이를 원활히 지원할 수 있다면 생태계를 확보하고 경쟁력을 갖출 수 있다. 특히 모델 구축이 아니라 기존 구축된 모델을 사용하는 입장이라면 엔비디아의 '쿠다(CUDA)' 생태계를 고집할 필요가 없다.
외부 개발사들의 가속기 생태계의 핵심은 주요 모델의 구동에 대한 오픈소스 환경 지원이 꼽힌다. 국내외 주요 개발사들의 초기 사례에서는 자체 소프트웨어 개발력을 갖춘 대형 고객사의 확보가 눈에 띈다. 퓨리오사AI는 카카오엔터프라이즈와 LG AI 연구원과의 관계가, 리벨리온은 SK텔레콤과의 관계가 시장 진입에 큰 영향을 줬다.

데이터센터급 가속기에서 눈에 띄는 국내 기업은 리벨리온이다. 리벨리온은 자체 설계한 '아톰(ATOM)', '리벨(REBEL)' 시리즈를 상용화하며 생태계 확보를 위한 주요 요건들을 달성했다. 최신 '리벨쿼드(REBEL-Quad)'는 엔비디아 H100 수준의 2페타플롭스 성능을 확보한 대형 가속기다. 리벨리온의 가속기는 현재 SK텔레콤의 에이닷 통화요약 서비스에 활용되면서 중요한 레퍼런스를 확보했고, 오픈소스 생태계 지원을 넘어 레드햇의 오픈시프트 AI 환경에서 공식 지원되면서 가속기에서 인프라, 모델에 이르는 '풀 스택' 접근법도 확보했다.
퓨리오사AI도 최근 2세대 칩 '레니게이드(RNGD)'의 1차 양산을 마치고 공급을 시작했다. 카드 자체는 FP8에서 512테라플롭스 성능으로 최신 대형 GPU나 하이퍼스케일러들의 가속기에 비해 낮지만, 그만큼 작고 전력 소비도 낮다. 퓨리오사AI는 LG AI 연구원과 '레니게이드'를 '엑사원(EXAONE)'에 적용하는 업무협약을 체결한 바 있다. LG CNS의 에이전틱AI 플랫폼 '에이전틱웍스'에도 레니게이드를 적용한다는 계획이다.
한편, 퀄컴의 '클라우드 AI' 시리즈 가속기를 사용한 국내 사례도 있다. 최근 액세스랩은 퀄컴의 '클라우드 AI 100 울트라'와 Arm 기반 프로세서를 사용한 온프레미스 추론 어플라이언스 'V-랩터 Q100'을 선보인다고 밝혔다. 인텔의 '가우디' 또한 국내외에 눈에 띄는 고객 사례를 만든 바 있다. 국내에서는 네이버가 '가우디 2'를 활용한 바 있고, '가우디 3'는 IBM 클라우드에 도입돼 서비스형으로 고객에 제공되고 있다.
권용만 기자
yongman.kwon@chosunbiz.com
Copyright © IT조선. 무단전재 및 재배포 금지.
- MS, 자체 AI 가속기 ‘마이아 200’ 공개… 블랙웰 GPU급 성능
- 다시 무대에 선 ‘TPU’, GPU 중심 시대는 바뀔까 [줌인IT]
- “20년 클라우드·인프라 경험, AI 시대 경쟁력 핵심” [AWS 리인벤트 2025]
- 맷 가먼 CEO, 에이전틱 AI 전환 선언… 모델·인프라 전면 강화 [AWS 리인벤트 2025]
- 리벨리온 “기초체력 확보, 해외시장 진출 본격화”
- 구글 클라우드, 7세대 TPU ‘아이언우드' 출시… “이전 세대 4배 성능”
- LG CNS, 퓨리오사AI와 손잡고 공공 AX 시장 공략
- AI 풀스택 갖춘 韓, 사우디 시장 진출 본격화
- 퓨리오사AI, 2세대 AI칩 ‘RNGD’ 양산… “올해 2만장”