삼성 파운드리, '첫 AI 가속기' 그록3로 'SRAM 영토' 넓힌다

이상헌 기자 2026. 4. 9. 14:20
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

TPU 설계 주역 조나단 로스
HBM 버리고 ‘SRAM 올인’
150TB/s 대역폭까지 구현
GPU 대비 50배 빠른 추론
젠슨 황 엔비디아 CEO가 그록3를 소개하고 있다. / 엔비디아

인공지능 연산의 정점에 선 CPU는 코어는 몇 개에서 수십 개에 불과한 소수 정예 집단이다. 반면 중장갑 기갑부대인 GPU는 수천 개의 코어 화력을 가졌지만, HBM이나 DRAM 창고로부터 데이터를 공급받아야 하는 구조다.

삼성전자가 엔비디이아로부터 주문받아 제조하는 LPU 그록3는 수만 개의 초경량 복제병이다. 외부 창고에 의존하지 않고 각 코어가 자신의 SRAM에서 즉시 데이터를 꺼내 0.1나노초 단위 연산을 종결한다. 기다림 없이 각자 독립적으로 움직이며, 오직 연산 자체에만 집중하는 결정론적 추론 구조다.

9일 반도체업계 등에 따르면 삼성전자가 시스템 반도체 분야에서 스마트폰용 모바일 칩의 한계를 넘어 AI 가속기 시장 공략에 속도를 내고 있다. 삼성 파운드리는 최근 차세대 AI 가속기 스타트업 '그록(Groq)'의 3세대 LPU를 4나노 공정에서 수주하며 시장 판도 변화를 예고했다. 그록3의 기판은 삼성전기의 FC-BGA가 낙점됐다.

삼성 계열사 간 이번 협력은 단순 주문 생산에 그치지 않고 그룹 내 첨단 패키징 기술이 결합된 '수직 계열화' 구조를 갖췄다는 점에서 업계의 주목을 받고 있다. 추론 전용 가속기 LPU(Language Processing Unit)는 구글의 AI 반도체인 TPU를 주도했던 조나단 로스가 설계했다.

통상적으로 GPU나 범용 NPU는 거대한 데이터 저장을 위해 외부 메모리인 HBM(고대역폭메모리)에 절대적으로 의존한다. 하지만 연산할 때마다 데이터를 밖에서 가져와야 하므로 지연(Latency)이 발생한다. 조나단 로스는 이를 해결하기 위해 반도체 설계의 금기를 돌파했다. '메모리 병목 현상'을 '지능의 유배'로 본 그는 LPU에서 HBM을 아예 삭제하는 파격적인 선택을 했다.

빛의 속도로 처리하는 '선형 추론' 마법
삼성 기판 위에 펼쳐지는 'SRAM 군무'

LPU는 오직 토큰을 빛의 속도로 처리하기 위해 설계되었다. 데이터가 칩 밖으로 나가지 않으니 '지연'이라는 개념 자체가 사라지기 때문이다. 데이터 전송 속도인 대역폭 면에서도 격차는 압도적이다. GPU의 HBM 대역폭이 3~8 TB/s 수준인 데 비해, LPU의 SRAM은 20~50배 빠른 150 TB/s에 달한다.

조나단 로스는 소프트웨어가 하드웨어를 완벽하게 통제하는 방식을 도입했다. 컴파일러가 "몇 시 몇 분 몇 초에 어느 레지스터로 데이터가 이동할지"를 미리 정해 초당 수천 토큰을 쏟아내면서도 단 1ns의 오차도 허용하지 않는 성능을 구현했다.

물리적 측면에서도 LPU는 수만 개의 코어가 마치 하나의 유기체처럼 움직이는 '공간의 수평 정렬'을 실현한다. FC-BGA 기판 위 LPU 칩은 상호 간 데이터 전송 지연 없이 토큰을 옆으로, 혹은 앞으로 전달한다. 개별 칩들의 집합을 넘어 모든 연산 자원이 단일 리듬으로 동기화되어 움직이는 거대한 SRAM의 군무와도 같다.
대부분의 인공지능 칩 내부에서 가장 넓은 영토를 차지하는 것은 SRAM이다. 미세 공정으로 집적된 6T SRAM 셀은 워드라인(WL)과 비트라인(BL, BLBAR)을 따라 격자 형태로 반복 배치되며, 칩 면적의 상당 부분을 점유한다. 이는 단순한 저장 공간이 아니라 연산 지연을 결정짓는 핵심 구조로, 데이터 이동 거리를 최소화하기 위해 코어 바로 옆에 밀집 배치된 결과다. 결국 이 촘촘한 SRAM 배열이야말로 칩 성능의 실질적 한계를 규정하는 '보이지 않는 면적 지배자'다. /해설=이상헌

다만 SRAM으로 도배된 LPU는 연산 시 발생하는 막대한 전력 소모와 고열이 정렬 엔진의 리듬을 깨뜨리는 최대의 적이다. 삼성은 파운드리의 미세 배선 설계와 삼성전기의 적층세라믹콘덴서(MLCC) 기술을 결합해 수조 개의 트랜지스터가 동시에 터지는 순간에도 전압 흔들림 없는 전력 공급을 구현할 수 있다. 삼성전기의 FC-BGA가 조나단 로스의 설계를 물리적으로 현실화하는 핵심 인프라인 이유다.

LPU는 데이터를 찾기 위해 외부 HBM 창고로 향하는 보급로 자체를 끊어버림으로써 연산 과정에서 발생하는 모든 '기다림'의 시간을 삭제했다. 정렬된 철길 위를 달리는 열차처럼 토큰은 칩 내부의 SRAM 고속도로를 타고 빛의 속도로 질주하며 사출된다. 학습이라는 노역에 묶인 GPU와 달리 오직 정제된 지능을 토큰화해 쏟아내는 '추론 전용 정렬 엔진'이다.

삼성전자의 4나노 핀펫 공정은 초기 수율 논란에도 불구하고, 전력 효율과 트랜지스터 제어 능력 측면에서 빠르게 개선되며 TSMC와의 격차를 좁혀왔다. 특히 미세 배선 설계와 누설 전류 제어, 캐시 안정성 확보 등 핵심 지표에서 경쟁력을 확보하며, 대규모 양산과 AI 가속기 수주를 통해 공정 완성도를 입증하는 단계에 진입했다는 평가가 나온다.

지금까지 선단 공정을 활용한 AI 가속기 시장은 TSMC가 사실상 독점해 왔다. 삼성 파운드리의 이번 수주는 이러한 독점 체제에 균열을 낸 첫 사례로 평가받는다. 반도체 업계 관계자는 "구글 TPU의 아버지 조나단 로스가 삼성을 파트너로 택했다는 것은 삼성의 선단 공정과 패키징 솔루션이 차세대 AI 설계 규격에 부합한다는 증거"라며 "HBM과 GPU 패키징에는 여전히 밀리지만 초고속 추론 시장에서 삼성이 중요한 교두보를 확보한 것으로 볼 수 있다"고 분석했다.

☞ NPU(Neural Processing Unit) = 이재명 정부는 추론 전용이라고 소개하지만, 실체는 연산 효율(전력·면적 대비 성능)을 극단적으로 끌어올리기 위해 특정 연산 패턴(행렬 연산, low precision)에 특화된 구조다. GPU의 범용성을 버리고 연산 밀도를 선택한 설계다. 결과적으로 행렬 연산을 빠르게 돌리는 데는 성공했지만 데이터를 붙잡을 공간이 부족하다. 결국 연산 유닛은 남아도는데도 HBM으로부터 데이터 도착을 기다리는 병목 상태가 상시화되고, 수십 GB짜리 LLM 가중치를 온칩에 담지 못하는 한계에 직면했다.

여성경제신문 이상헌 기자
liberty@seoulmedia.co.kr

*여성경제신문 기사는 기자 혹은 외부 필자가 작성 후 AI를 이용해 교정교열하고 문장을 다듬었음을 밝힙니다. 기사에 포함된 이미지 중 AI로 생성한 이미지는 사진 캡션에 밝혀두었습니다.