"HBM만으론 AI 추론 감당 못 해"… 메모리 한계 돌파할 'CXL' 주목

[반도체레이다]

AI 추론 블랙홀 'KV 캐시'… 서버당 수 TB 요구에 HBM 용량 한계 직면

DDR5 늘리려 해도 물리적 슬롯 '벽'…용량 무한 확장하는 CXL 필수 불가결

[디지털데일리 배태용기자] 인공지능(AI) 반도체 시장의 패권 경쟁이 새로운 국면을 맞이하고 있다. 그동안 AI 연산의 '속도'를 책임지는 HBM(고대역폭메모리)이 시장의 절대적인 스포트라이트를 받았다면 이제는 한계에 다다른 '용량' 문제를 해결할 구원투수로 CXL(컴퓨트익스프레스링크)이 급부상하고 있다. 최근 반도체 업계 곳곳에서는 AI 생태계가 '학습'에서 '추론' 단계로 넘어가면서 막대한 메모리 용량을 유연하게 덧붙일 수 있는 CXL 수요가 폭발적으로 늘어날 것이란 관측이 나오고 있다.

◆ 팽창하는 'KV 캐시', HBM의 물리적 한계

24일 반도체 업계에 따르면 글로벌 빅테크 기업들의 AI 데이터센터 아키텍처 설계에서 메모리 '용량 확장성'이 가장 시급한 과제로 떠오르고 있다.

이러한 변화의 근본적인 원인은 AI 모델의 추론 과정에서 발생하는 데이터 처리 구조에 있다. 거대언어모델(LLM)이 사용자 질문을 이해하고 답변을 생성할 때는 앞서 입력된 문맥을 단기적으로 기억하는 'KV 캐시(Key-Value Cache)' 공간이 필수적이다. AI 모델이 고도화되고 입력 데이터가 방대해질수록 이 KV 캐시 용량은 기하급수적으로 팽창한다.

문제는 현재 AI 가속기에 탑재되는 HBM의 용량만으로는 이를 감당하기 턱없이 부족하다는 점이다. 최고 사양의 GPU에 HBM을 꽉 채워 넣어도 총용량은 수백 GB(기가바이트) 수준에 머문다. 반면, 고도화된 AI 추론 서버가 요구하는 메모리 용량은 수 TB(테라바이트) 단위로 치솟고 있다. HBM이 '초고속 도로' 역할은 완벽히 수행하지만 데이터를 담아둘 '대형 주차장'으로는 크기가 너무 작다는 의미다.

HBM이 미처 다 담지 못하는 막대한 데이터 초과분은 서버 메인보드에 꽂힌 일반 시스템 D램(DDR5)으로 넘겨야(Offloading) 한다.

하지만 여기서 또 다른 물리적 장벽에 부딪힌다. 서버 메인보드에 장착할 수 있는 CPU 채널과 D램 모듈(DIMM) 슬롯의 개수는 공간적, 구조적으로 엄격히 제한돼 있다. 용량이 더 필요하다고 해서 무한정 DDR5를 꽂아 넣을 수는 없다는 뜻이다. 고용량 모듈을 꽂더라도 전력 소모와 발열 문제가 데이터센터의 발목을 잡는다.

◆ 서버 슬롯 '벽' DDR5론 역부족…CXL 주목 받나

바로 이 지점에서 CXL이 완벽한 대안이자 '게임 체인저'로 등판하고 있다. CXL은 CPU, GPU, 스토리지 등 다양한 장치들을 고속(PCIe)으로 연결해 메모리를 공유할 수 있게 해주는 차세대 인터페이스다.

CXL 규격을 적용한 D램 모듈을 사용하면 메인보드의 물리적 D램 슬롯 한계에서 벗어나 SSD를 꽂듯 메모리 용량을 테라바이트급으로 무한정 확장할 수 있다. 여러 대의 서버가 하나의 거대한 메모리 풀(Pool)을 공유해, 필요할 때마다 필요한 만큼의 메모리를 끌어다 쓰는 것도 가능해진다. '용량의 벽'에 부딪힌 AI 추론 서버 입장에서 CXL은 선택이 아닌 생존을 위한 필수 인프라가 된 셈이다.

이러한 흐름을 읽은 삼성전자와 SK하이닉스도 발 빠르게 움직이고 있다. HBM 경쟁에서 치열한 주도권 싸움을 벌이는 동시에 차세대 전장인 CXL 생태계 선점을 위해 CXL 2.0 기반의 고용량 D램 라인업을 속속 구축하며 상용화 시기를 앞당기고 있다.

업계 관계자는 "HBM이 AI 연산의 속도 병목을 해결했다면 CXL은 AI 추론 과정에서 필연적으로 발생하는 용량 병목을 해결할 유일한 열쇠"라며 "AI 모델 거대화로 인해 서버 한 대당 요구되는 메모리 용량이 기하급수적으로 늘고 있는 만큼, CXL 시장의 개화 시점과 수요 폭발은 업계의 예상보다 훨씬 빠르게 전개될 것"이라고 내다봤다.

IT/과학

"HBM만으론 AI 추론 감당 못 해"… 메모리 한계 돌파할 'CXL' 주목