삼성 파운드리, '첫 AI 가속기' 그록3로 'SRAM 영토' 넓힌다
HBM 버리고 ‘SRAM 올인’
150TB/s 대역폭까지 구현
GPU 대비 50배 빠른 추론

인공지능 연산의 정점에 선 CPU는 코어는 몇 개에서 수십 개에 불과한 소수 정예 집단이다. 반면 중장갑 기갑부대인 GPU는 수천 개의 코어 화력을 가졌지만, HBM이나 DRAM 창고로부터 데이터를 공급받아야 하는 구조다.
삼성전자가 엔비디이아로부터 주문받아 제조하는 LPU 그록3는 수만 개의 초경량 복제병이다. 외부 창고에 의존하지 않고 각 코어가 자신의 SRAM에서 즉시 데이터를 꺼내 0.1나노초 단위 연산을 종결한다. 기다림 없이 각자 독립적으로 움직이며, 오직 연산 자체에만 집중하는 결정론적 추론 구조다.
9일 반도체업계 등에 따르면 삼성전자가 시스템 반도체 분야에서 스마트폰용 모바일 칩의 한계를 넘어 AI 가속기 시장 공략에 속도를 내고 있다. 삼성 파운드리는 최근 차세대 AI 가속기 스타트업 '그록(Groq)'의 3세대 LPU를 4나노 공정에서 수주하며 시장 판도 변화를 예고했다. 그록3의 기판은 삼성전기의 FC-BGA가 낙점됐다.
삼성 계열사 간 이번 협력은 단순 주문 생산에 그치지 않고 그룹 내 첨단 패키징 기술이 결합된 '수직 계열화' 구조를 갖췄다는 점에서 업계의 주목을 받고 있다. 추론 전용 가속기 LPU(Language Processing Unit)는 구글의 AI 반도체인 TPU를 주도했던 조나단 로스가 설계했다.
통상적으로 GPU나 범용 NPU는 거대한 데이터 저장을 위해 외부 메모리인 HBM(고대역폭메모리)에 절대적으로 의존한다. 하지만 연산할 때마다 데이터를 밖에서 가져와야 하므로 지연(Latency)이 발생한다. 조나단 로스는 이를 해결하기 위해 반도체 설계의 금기를 돌파했다. '메모리 병목 현상'을 '지능의 유배'로 본 그는 LPU에서 HBM을 아예 삭제하는 파격적인 선택을 했다.
빛의 속도로 처리하는 '선형 추론' 마법
삼성 기판 위에 펼쳐지는 'SRAM 군무'
LPU는 오직 토큰을 빛의 속도로 처리하기 위해 설계되었다. 데이터가 칩 밖으로 나가지 않으니 '지연'이라는 개념 자체가 사라지기 때문이다. 데이터 전송 속도인 대역폭 면에서도 격차는 압도적이다. GPU의 HBM 대역폭이 3~8 TB/s 수준인 데 비해, LPU의 SRAM은 20~50배 빠른 150 TB/s에 달한다.
조나단 로스는 소프트웨어가 하드웨어를 완벽하게 통제하는 방식을 도입했다. 컴파일러가 "몇 시 몇 분 몇 초에 어느 레지스터로 데이터가 이동할지"를 미리 정해 초당 수천 토큰을 쏟아내면서도 단 1ns의 오차도 허용하지 않는 성능을 구현했다.

다만 SRAM으로 도배된 LPU는 연산 시 발생하는 막대한 전력 소모와 고열이 정렬 엔진의 리듬을 깨뜨리는 최대의 적이다. 삼성은 파운드리의 미세 배선 설계와 삼성전기의 적층세라믹콘덴서(MLCC) 기술을 결합해 수조 개의 트랜지스터가 동시에 터지는 순간에도 전압 흔들림 없는 전력 공급을 구현할 수 있다. 삼성전기의 FC-BGA가 조나단 로스의 설계를 물리적으로 현실화하는 핵심 인프라인 이유다.
LPU는 데이터를 찾기 위해 외부 HBM 창고로 향하는 보급로 자체를 끊어버림으로써 연산 과정에서 발생하는 모든 '기다림'의 시간을 삭제했다. 정렬된 철길 위를 달리는 열차처럼 토큰은 칩 내부의 SRAM 고속도로를 타고 빛의 속도로 질주하며 사출된다. 학습이라는 노역에 묶인 GPU와 달리 오직 정제된 지능을 토큰화해 쏟아내는 '추론 전용 정렬 엔진'이다.
삼성전자의 4나노 핀펫 공정은 초기 수율 논란에도 불구하고, 전력 효율과 트랜지스터 제어 능력 측면에서 빠르게 개선되며 TSMC와의 격차를 좁혀왔다. 특히 미세 배선 설계와 누설 전류 제어, 캐시 안정성 확보 등 핵심 지표에서 경쟁력을 확보하며, 대규모 양산과 AI 가속기 수주를 통해 공정 완성도를 입증하는 단계에 진입했다는 평가가 나온다.
지금까지 선단 공정을 활용한 AI 가속기 시장은 TSMC가 사실상 독점해 왔다. 삼성 파운드리의 이번 수주는 이러한 독점 체제에 균열을 낸 첫 사례로 평가받는다. 반도체 업계 관계자는 "구글 TPU의 아버지 조나단 로스가 삼성을 파트너로 택했다는 것은 삼성의 선단 공정과 패키징 솔루션이 차세대 AI 설계 규격에 부합한다는 증거"라며 "HBM과 GPU 패키징에는 여전히 밀리지만 초고속 추론 시장에서 삼성이 중요한 교두보를 확보한 것으로 볼 수 있다"고 분석했다.
☞ NPU(Neural Processing Unit) = 이재명 정부는 추론 전용이라고 소개하지만, 실체는 연산 효율(전력·면적 대비 성능)을 극단적으로 끌어올리기 위해 특정 연산 패턴(행렬 연산, low precision)에 특화된 구조다. GPU의 범용성을 버리고 연산 밀도를 선택한 설계다. 결과적으로 행렬 연산을 빠르게 돌리는 데는 성공했지만 데이터를 붙잡을 공간이 부족하다. 결국 연산 유닛은 남아도는데도 HBM으로부터 데이터 도착을 기다리는 병목 상태가 상시화되고, 수십 GB짜리 LLM 가중치를 온칩에 담지 못하는 한계에 직면했다.
여성경제신문 이상헌 기자
liberty@seoulmedia.co.kr
*여성경제신문 기사는 기자 혹은 외부 필자가 작성 후 AI를 이용해 교정교열하고 문장을 다듬었음을 밝힙니다. 기사에 포함된 이미지 중 AI로 생성한 이미지는 사진 캡션에 밝혀두었습니다.
- [Ψ-딧세이] 조용한 지능의 코어 vs 시끄러운 메모리 창고 - 여성경제신문
- [분석] EUV 대수 자랑해도 HBM '빈손'···삼성 57조 영업이익의 이면 - 여성경제신문
- [Ψ-딧세이] 20년 전 핀펫이 세운 '3차원 성벽' 초지능의 시작점 - 여성경제신문
- 美 연준 칩플레이션 경고···메모리 계급화 '보이지 않는 손' - 여성경제신문
- [AI칩 지정학] ⑥ "HBM은 거들 뿐···" 딥시크 V4, 화웨이 링코어 속으로 - 여성경제신문
- "너희들 삼전·하닉 샀어?"···목표주가 장사의 끝, AI로 인력 대체 - 여성경제신문
- [Ψ-딧세이] HBM 한층도 필요 없네?···지포스급 GPU가 증명한 K-메모리 신화의 종언 - 여성경제신문
- TSMC 옆자리가 뭐길래?···마이크론, 대만~인도 생산 축 확장 - 여성경제신문
- 메모리 압축에 쫄았어?···구글에는 'HBM 대체' 신무기 더 있다 - 여성경제신문
- [AI칩 지정학] ⑤ K-메모리를 연산 문명 변방으로 밀어낸 HBM의 배신 - 여성경제신문