학습 능력 갖춘 90만개 SRAM 코어···세레브라스, 나스닥 상장 재추진

추론 속도 H100 7배·가격 10분의 1
같은 모델인데 왜 7배 더 빠르다고?
비밀은 데이터 ‘이동 거리’에 있다
웨이퍼 스케일 44GB SRAM 혁명

인공지능 반도체인 WSE(Wafer-Scale Engine)을 탄생시킨 주역들. 왼쪽부터 시계 방향으로 공동 창립자인 앤드류 펠드먼(CEO), 게리 라우터바흐(CTO), 션 리, 마이클 제임스, 장 린. / 세브라스 시스템즈 홈페이지

미국 스타트업 세레브라스 시스템즈가 나스닥 상장을 재추진하며 다시 주목받고 있다. HBM 대신 대용량 SRAM을 칩 내부에 배치해 데이터를 연산 코어 바로 옆에서 처리하고, 접근 지연을 0.1나노초 수준으로 낮춘 구조를 바탕으로, 학습과 추론을 동시에 수행할 수 있는 연산 능력을 확보한 점이 경악할 만한 지점이다.

20일 미국 증권거래위원회(SEC)에 제출한 기업공개(IPO) 신청서에 따르면 모건스탠리·씨티·바클레이스·UBS가 주관사를 맡았다. 2025 회계연도 기준 매출 5억1000만 달러, 순이익 8790만 달러로 전년 적자에서 흑자 전환에 성공했고, 오픈AI와 체결한 3년 200억 달러 규모 계약이 실적 개선의 핵심 배경으로 작용했다.

지난 2015년 창립된 세레브라스의 경쟁력은 칩 구조에 있다. 기존 GPU 기반 시스템은 파라미터 데이터가 SSD→DRAM→HBM→SRAM으로 이어지는 다단계 이동을 전제로 설계돼 있으며, 이 과정에서 지연이 누적된다.

반면 세레브라스는 웨이퍼 전체를 하나의 칩으로 사용하는 '웨이퍼 스케일 엔진(WSE-3)'을 통해 칩 간 경계를 제거하고, 대용량 SRAM을 칩 내부에 배치해 데이터가 외부 메모리를 왕복하지 않도록 설계했다. 핵심은 대역폭을 키운 것이 아니라 데이터 이동 자체를 줄인 점이다.

메모리 구조에서도 차이가 명확하다. 기존 그래픽처리장치(GPU)는 고대역폭 메모리(HBM)를 통해 데이터를 공급받지만, 이는 여전히 칩 외부에 위치해 접근 지연이 존재한다. 이에 반해 세레브라스는 약 44GB 규모의 SRAM을 칩 내부에 배치해 주요 데이터를 연산기 인접 영역에서 처리한다.

외부 메모리 접근 빈도가 줄어들고, 연산 흐름을 단순화한 구조는 곧바로 성능으로 이어진다. 기존 GPU는 HBM에서 데이터를 가져와 SRAM으로 이동시킨 뒤 연산을 수행하는 구조인 반면, 세레브라스는 데이터가 이미 칩 내부에 존재한 상태에서 바로 연산이 이루어진다.

테크 시장에서도 변화가 감지되고 있다. 오픈AI는 200억 달러 규모의 장기 계약을 통해 세레브라스 기반 인프라를 확보했고, 아마존웹서비스(AWS) 역시 자체 트레이니움 칩과 병행해 활용할 계획이다. 아부다비의 G42도 주요 투자자이자 고객으로 참여하고 있다. 이는 GPU 중심 구조를 보완하려는 산업 전반의 움직임으로 해석된다.

웨이퍼 통째로 써···칩 경계 자체 제거
90만 코어와 4조 트랜지스터의 괴물

특히 WSE-3의 사양은 칩 스펙을 넘어, 반도체 설계의 발상 자체를 바꾼 결과물이다. 5나노미터(TSMC) 공정 위에 4조 개 트랜지스터와 90만 개의 AI 코어를 올리고, 엔비디아 H100의 57배에 달하는 면적을 하나의 웨이퍼 스케일 구조로 유지했다는 점은 "칩을 더 잘게 쪼개 더 많이 붙인다"는 기존 공식을 정면으로 뒤집는다.

또한 이 거대한 면적 안에 대규모 SRAM을 직접 품었다는 사실은, 기억과 연산을 가능한 한 같은 평면 위에 붙여 데이터 이동의 장벽을 끊어내겠다는 설계 철학을 드러낸다. 이는 단순히 "큰 칩"이 아니라, 연산기와 기억 장치의 거리를 물리적으로 줄여 지연 자체를 설계 단계에서 지워버리려는 시도다.

H100과 비교해 코어 수가 52배 많고 면적이 57배 넓다. 4조 개의 트랜지스터와 90만 개의 AI 코어가 단 하나의 실리콘 위에서 연속적으로 연결되면, 기술적으로는 칩 경계에서 발생하던 통신 비용과 동기화 오버헤드가 구조적으로 사라진다.

지난해 세레브라스는 AI 추론 시장에 본격 진출하며 실제 성능을 공개했다. 비교하면 세레브라스 WSE-3는 1850 토큰/초, 그록(Groq)은 약 800~900 토큰/초로 약 2배 차이를 보였다. 엔비디아 H100은 약 242 tokens/초로 약 7배 차이를 보인다. 같은 모델을 돌리는데도 이런 격차가 발생하는 이유는 데이터가 연산기(ALU)에 도달하는 경로의 길이와 구조 때문이다.

가격 경쟁력도 갖췄다. 메타 라마 3.1 8B 기준 100만 토큰당 약 0.1달러 수준으로, 오픈AI의 GPT-4o 미니나 구글 제미나이 1.5 플래시 대비 약 10배 저렴하다. 이는 앞으로 AI 칩 경쟁이 "누가 더 많은 칩을 묶느냐"가 아닌 "누가 이동 없는 구조를 먼저 구현하느냐"로 넘어가고 있음을 보여주는 상징이 될 전망이다.

더 무서운건 스트리밍 학습력
메모리가 연산으로 흘러든다

더욱 놀라운 것은 학습 능력이다. 학습이 어려운 'SRAM 덩어리'라는 직관과 달리, 세레브라스의 WSE-3는 캐시 공간 확장을 넘어 연산과 메모리 관계를 재설계한 구조다. 학습 구조는 가중치 스트리밍(Weight Streaming)으로 완성된다.

전체 파라미터는 외부 메모리(MemoryX)에 저장하고, 필요한 레이어만 순차적으로 SRAM으로 흘려보내 연산에 투입한다. GPU처럼 데이터를 찾아다니는 방식이 아니라, 데이터가 연산 지점으로 흘러 들어가게 하는 방식이다. 메모리 이동을 방해하는 병목 없이 연산 경로가 단순화되면서 동일한 모델에서도 속도와 효율에서 큰 차이가 발생한다.

앤드류 펠드먼 공동창업자와 칩 아키텍처를 이끈 션 라이, 시스템·소프트웨어 스택을 총괄한 게리 라우터바흐 등이 칩 설계 핵심 인물로 꼽힌다. 여기에 반도체 설계와 대규모 시스템 최적화 경험을 갖춘 엔지니어들이 결합해, 웨이퍼 스케일이라는 비정형 구조를 실제 제품으로 구현했다. 이들은 '칩을 쪼개 병렬화한다'는 기존 GPU 패러다임 대신, 하나의 실리콘 위에 연산과 메모리를 최대한 밀착시키는 방식으로 문제를 재정의했다는 공통점을 갖는다.

세레브라스의 등장은 글로벌 공급망에도 변화를 예고한다. 데이터 이동을 줄이는 구조가 성능의 핵심으로 부상하면서, 삼성전자와 SK하이닉스의 HBM 중심 메모리 생태계와 GPU 기반 분산 아키텍처의 절대적 우위가 흔들릴 가능성이 크다. 동시에 대형 단일 칩과 스트리밍 기반 학습 구조가 현실화되면, 데이터센터 설계와 AI 인프라 투자 기준 역시 '연산량'에서 '연산–데이터 거리' 중심으로 재편될 수 있다. 결국 AI 칩 경쟁의 기준 자체를 바꾸는 변곡점으로 부상할 전망이다.

세레브라스의 AI 반도체 'WSE-2'. 세레브라스가 온칩 SRAM을 'L0'라고 부르는 건 캐시 계층 인식 자체를 뒤집는 선언에 가깝다. 전통적으로 L1이 코어에 가장 가까운 시작점이지만, 이들은 그보다 더 안쪽—연산기 바로 옆에서 동작하는 초근접 메모리 층을 따로 정의해 '0'이라는 번호를 붙였다. 즉 "가장 가깝다"는 기존 기준보다 한 단계 더 들어간 위치를 명시적으로 드러낸 것이다. 실제로 이 구조에서는 대규모 SRAM이 칩 전역에 분산되어 코어 인접 영역에서 즉시 접근되며, 데이터 이동 없이 연산이 이어진다. 결과적으로 'L0'는 연산과 기억의 거리를 사실상 0에 가깝게 압축한 계층을 가리키는 이름이다. 숫자 하나로 기존 메모리 서열을 재정의한 셈이다. / 해설 =이상헌 기자

☞가중치 스트리밍(Weight Streaming) = 전체 파라미터를 한 번에 칩 내부에 올려두지 않고, 외부 메모리에 저장된 가중치를 레이어 단위로 순차적으로 불러와 연산하고 즉시 업데이트하는 학습 방식이다. 순전파와 역전파는 온칩 SRAM과 연산 코어 인접 영역에서 수행되고, 계산된 그래디언트가 반영된 가중치는 다시 외부 메모리로 기록된다. 즉 저장은 외부에, 학습 연산은 칩 내부 초근접 영역에서 이루어지는 구조다.

가중치를 들고 있는 것이 아닌 흘려보내며 학습한다는 점이 기존 방식과 가장 큰 차이다. 필요한 부분만 순간적으로 SRAM에 올라와 처리되고, 칩 전역에 분산된 SRAM과 코어가 동기화된 '군무'처럼 병렬 반응하며 연산을 수행한다. 이로 인해 전체 파라미터를 상주시킬 필요 없이도 대규모 모델 학습이 가능해지고, 데이터 이동 병목을 줄이면서 연산 흐름의 연속성을 유지하는 방식으로 효율을 확보한다.세레브라스 2년 전 IPO 좌초 3대 원인

세레브라스 시스템즈의 1차 상장 실패는 기술 문제가 아니라 구조 문제였다. 규제 리스크, 산업 생태계 충돌, 매출 편중이라는 세 가지 요인이 동시에 작용했다. 반대로 이번 재도전은 이 세 가지 약점이 상당 부분 해소되면서 가능해진 흐름이다.

첫 번째 원인은 G42와의 관계에서 발생한 규제 리스크다. 당시 세레브라스 매출의 상당 부분이 UAE AI 기업 G42에 집중돼 있었고, 이 기업이 중국 기업들과 연관돼 있다는 의혹이 제기되면서 미국 정부의 견제가 시작됐다.

특히 웨이퍼 스케일 엔진(WSE)은 군사·암호 분야에도 활용 가능한 고성능 연산 자산으로 분류되며, 미국 외국인투자심의위원회(CFIUS)의 정밀 검토 대상이 됐다. 이 과정에서 지배구조와 기술 이전 가능성에 대한 불확실성이 커졌고, 결국 상장 계획은 철회됐다.

두 번째는 기존 GPU 중심 생태계와의 구조적 충돌이다. 세레브라스의 설계는 HBM 기반 외부 메모리 구조를 전제로 하는 기존 GPU 아키텍처와 근본적으로 다르다. 데이터 이동을 최소화하고 연산과 메모리를 통합하려는 접근은, 메모리·패키징·데이터센터 인프라로 이어지는 엔비디아 공급망과 충돌할 수밖에 없었다.

세 번째는 매출 구조의 편중성이다. 당시 세레브라스 매출의 80% 이상이 중동 지역(G42 및 관련 기관)에 집중돼 있었다. 이는 기술력과 별개로, 단일 고객 의존도가 높다는 점에서 상장 심사에서 부담으로 작용했다. 월가 입장에서는 기술의 확장성과 시장 다변화 가능성을 확인할 근거가 부족했다.

이 세 가지 요인은 기술의 문제가 아니라, 기술을 둘러싼 환경의 문제였다. 다시 말해, 세레브라스는 구조적으로는 앞서 있었지만, 이를 받아들일 시장과 제도가 준비되지 않았던 상황이었다.

이번 재도전이 가능한 이유는 그 환경이 바뀌었기 때문이다. 먼저 고객 구조가 변화했다. 오픈AI와의 대형 계약, AWS와의 협력 등을 통해 매출 기반이 다변화되면서 단일 고객 리스크가 완화됐다. 동시에 미국 내 전략적 이해관계 안으로 편입되며 규제 불확실성도 줄어든 상태다.

또한 기술 환경도 달라졌다. 모델 규모가 커지면서 데이터 이동 비용이 성능의 핵심 병목으로 드러났고, 기존 GPU 구조의 한계가 점차 명확해지고 있다. 이 흐름 속에서 세레브라스의 온칩 SRAM 기반 통합 구조는 단순한 대안이 아니라, 특정 조건에서 더 효율적인 해법으로 받아들여지기 시작했다.

결국 세레브라스의 재도전은 기술의 진보라기보다, 시장과 제도가 그 기술을 수용할 단계에 도달한 결과로 보인다. 이전에는 과도하게 앞서 있었던 구조가, 이제는 현실적인 선택지로 이동한 것이다.

여성경제신문 이상헌 기자
liberty@seoulmedia.co.kr

*여성경제신문 기사는 기자 혹은 외부 필자가 작성 후 AI를 이용해 교정교열하고 문장을 다듬었음을 밝힙니다. 기사에 포함된 이미지 중 AI로 생성한 이미지는 사진 캡션에 밝혀두었습니다.

여성경제신문에서 직접 확인하세요. 해당 언론사로 이동합니다.

IT/과학

학습 능력 갖춘 90만개 SRAM 코어···세레브라스, 나스닥 상장 재추진