엔비디아, 베라 루빈·그록 3로 학습 넘어 추론까지··· 국내 AI 반도체 '생존 해법'은?

남시현 2026. 3. 17. 18:42
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[IT동아 남시현 기자] “올해로 쿠다(CUDA)를 출시한 지 20주년이 됩니다. 20년 간 우리는 프로그래밍을 더 쉽게 바꿔놓았고, 오늘날 인공지능의 기초가 되는 수학적 핵심과 구조, 수천 개의 오픈소스 도구, 컴파일러, 프레임워크, 라이브러리를 모두 쿠다 생태계로 통합해 왔습니다. 전 세계 수억 대의 GPU와 컴퓨터에서 쿠다가 실행되며, 모든 산업 분야에 서비스가 제공됩니다. 쿠다가 개발자를 끌어들이고, 획기적인 발전을 이루며 새로운 알고리즘을 만드는 플라이휠이 이뤄지고 있습니다”

젠슨 황 엔비디아 CEO가 GTC 2026 기조연설에서 베라 CPU와 루빈 GPU, 추론용 그록 3 LPU까지 폭넓게 공개했다 / 출처=엔비디아

엔비디아가 주최하는 GTC(GPU 기술 콘퍼런스) 2026이 현지시간으로 3월 16일 개막했다. GTC는 2009년 첫 개막 이후 현재는 세계 최대 규모의 AI 및 가속컴퓨팅 콘퍼런스로 거듭났으며, 올해는 450여 개의 글로벌 기업과 2000여 명의 연사가 참여해 ▲ AI 플랫폼 ▲컴퓨터 비전 ▲LLM ▲보안 ▲인프라스트럭처 ▲콘텐츠 제작 ▲데이터 과학 ▲엣지 컴퓨팅 ▲ 개발 및 최적화 등 다양한 주제에 대한 세션을 개최한다.

2023년 이후 AI가 전 세계 산업의 신규 동력으로 떠오르면서 GTC의 위상도 함께 높아졌다. 그중에서도 젠슨 황 엔비디아 최고경영자가 진행하는 GTC 기조연설은 그해와 이듬해 AI 산업의 흐름과 방향성을 결정하는 발표로 자리매김한 상황이다. 올해 행사에서는 엔비디아 베라 CPU와 루빈 GPU의 공식 출시는 물론 차세대 GPU 아키텍처 ‘파인만’을 공개하였으며, NV링크 6 스위치를 비롯한 차세대 기술, 삼성전자 HBM4E 발표 등이 이어졌다. 특히 지난 12월 우회 인수한 ‘그록(Groq)’의 제품을 바탕으로 한 엔비디아 그록 3 LPU(Groq 3 LPU)를 공개하며 추론 시장 진출까지 본격화했다.

이날 엔비디아가 공개한 7개의 칩과 6개의 렉 시스템 / 출처=엔비디아

젠슨 황 엔비디아 CEO는 “모두가 엔비디아 GPU의 컴퓨팅 수요가 엄청나다는 것을 알고, 가격은 폭등하고 있다. 엄청난 양이 만들어지지만 수요는 계속해서 늘고 있다. 인공지능으로 생산적인 작업을 수행할 수 있게 되며 추론이라는 변곡점이 도래했기 때문이다”라면서 “지난 2년을 돌아보면 필요한 컴퓨팅 자원은 약 1만 배 정도 늘었고, 이제는 AI가 생각하고 추론하고 행동해야 할 시기”라고 정리했다.

이어서 “2016년 4월 6일, 세계 최초로 딥러닝을 위해 설계된 컴퓨터인 DGX1을 출시했다. 8개의 파스칼 GPU가 1세대 NV링크로 연결됐고, 170 테라플롭스의 성능을 발휘했다. 이후 더 많은 GPU를 연결했지만 모델이 더 빨리 커졌다. 2020년 DGX A100 슈퍼팟을 통해 확장성을 더 끌어올렸고, 블랙웰 기반의 NVL72를 통해 AI 슈퍼컴퓨팅 아키텍처를 재정의했다. 베라 루빈 NVL 72는 3.6 엑사플롭스의 컴퓨팅 성능을 발휘하며, 에이전트 AI 시대를 가속화하는 핵심 동력이 될 것이다”라며 제품을 공개했다.

루빈 GPU로 학습 시장을, 그록 3 LPU로 추론 시장을 잡겠다는 것이 엔비디아의 새로운 전략이다 / 출처=엔비디아

베라 루빈 슈퍼칩은 2개의 루빈 GPU와 1개의 베라 CPU로 구성된다. 베라 CPU는 Arm 아키텍처 기반을 바탕으로 설계된 88개의 올림푸스 코어가 탑재되며, 기존 랙스케일 CPU 대비 2배 높은 효율을 갖춘다. 또한 2세대 저전력 메모리 서브시스템을 통해 LPDDR5X 메모리 기반으로 최대 1.2TB의 대역폭을 갖춘다. 루빈 GPU는 각각 288GB의 HBM4 메모리를 탑재해 최대 22테라바이트의 대역폭을 제공하며, NVFP4(엔비디아가 자체 개발한 4비트 부동소수점 형식) 활용 시 50 페타플롭스의 성능을 발휘한다. NVL 72는 총 72개의 루빈 GPU와 36개의 베라 CPU를 탑재해 3600 페타플롭스의 NVFP4 추론 성능과 2520 페타플롭스의 NVFP4 학습 성능을 발휘한다.

이와 함께 네트워크 카드인 커넥트 X9 슈퍼닉(SuperNIC), 블루필드-4 데이터 처리 장치(DPU), 병렬 컴퓨팅용 연결 규격인 NV링크-6 스위치, 차세대 네트워킹 설루션인 스펙트럼-X 이더넷 포토닉스 스위치도 공개됐다. 이후에 루빈 울트라 칩, 그리고 차세대 아키텍처인 파인만에 대한 간략한 소개도 이어졌다.

그록 3 LPU 실물을 탑재한 시스템 / 출처=엔비디아

함께 공개된 제품 중 가장 눈여겨볼 제품군은 그록 3 LPU다. LPU는 정적 랜덤 액세스 메모리(SRAM)를 기반으로 하는 추론용 반도체다. 일반적인 CPU, GPU는 캐시메모리 형태로 수십 MB 내외의 용량의 SRAM만을 배치하고, 외부에 HBM 등 대용량 메모리를 배치해 활용한다. 메모리는 수십 GB로 크지만 전송 속도에 한계가 있다. 반면 LPU는 이 캐시메모리 개념의 SRAM을 500MB나 배치해 칩 자체에 모델을 직접 활용한다. 덕분에 블랙웰 B200 HBM의 대역폭이 8TB인데 그록 3 LPU의 대역폭은 150TB에 달한다. 덕분에 메모리 속도에 따라 성능 차이가 나는 추론 모델을 실현할 때 유리하다.

엔비디아는 256개의 그록 3 LPU를 결합한 그록3 LPX도 함께 공개했다. 이 시스템은 315 페타플롭스의 추론 성능과 128GB의 SRAM 용량을 갖췄고, 40 페타바이트의 압도적인 메모리 대역폭을 갖췄다. 엔비디아는 올해 3분기 중 그록 3 칩을 출하할 예정이며, 최신 AI 데이터센터에서 베라 루빈 NVL 72로 학습 작업을 처리하고, 그록 3 LPX로 추론을 처리하는 방식을 안착시킬 것으로 보인다.

SRAM 기반 초고효율 추론 혁신, 국내 AI 반도체 업계도 긴장

지난해 12월 엔비디아가 그록을 지분투자 형태로 인수하면서 엔비디아의 추론용 반도체 시장 진출은 사실상 확정된 상황이었다. 그렇지만 예상보다 큰 규모, 그리고 엔비디아가 본격적으로 학습과 추론 양대 시장을 모두 확보하겠다는 취지로 나오면서 국내 AI 반도체 시장에도 발등에 불이 떨어졌다. 그간 엔비디아가 GPU 기반으로 학습용 시장에 집중한 까닭에 퓨리오사AI, 리벨리온 등 국내 AI 반도체 기업들은 상대적으로 경쟁이 적은 추론 시장에 집중했지만 이제 엔비디아와도 경쟁해야 하기 때문이다.

리벨리온의 최신 하이퍼스케일러용 NPU ‘리벨 쿼드’ / 출처=IT동아

그록 3 LPU가 엔비디아 GPU와 이기종 컴퓨팅으로 엮여서 동작하는 점이 큰 압박이지만, SRAM 기반 초저지연 환경에 최적화된 제품이어서 국내 AI 반도체 기업들과 겨냥하는 바가 조금 다르다. 리벨리온은 최근 vLLM 프레임워크와의 호환성을 끌어올리는 vLLM RBLN 플러그인을 제공하는 것으로 시장 전략을 잡고 있다. 리벨리온 NPU에서 별도 수정 없이 vLLM 프레임워크를 활용할 수 있도록 해 기존 GPU에서 vLLM을 활용하는 고객이나 개발자가 그대로 리벨리온 NPU로 전환할 수 있도록 한다. 즉 기존에 HBM 탑재 제품에서 그대로 NPU로 추론하는 고객을 노리는 것이다.

퓨리오사AI의 2세대 NPU ‘RNGD’ / 출처=IT동아

퓨리오사AI의 RNGD는 ‘텐서 수축’에 최적화된 아키텍처다. 동일한 수학적 연산을 처리해도 더 적은 연산량을 통해 전력 효율을 끌어올리며, 180W 수준의 낮은 전력소모량과 저발열 구조를 통해 공랭식으로도 안정적이다. 또한 파이토치 기반의 개방형 생태계에 맞춘 설계, 단독 추론 카드 형태로 활용할 수 있는 구조가 장점이다. 실제로 퓨리오사AI는 2장의 RNGD만을 활용해 gpt-oss-120B 모델을 구동하는 데모를 선보이면서 훨씬 더 범용성 있게 현장에 배치할 수 있음을 입증한 바 있다.

하이퍼엑셀은 그록 3와 동일하게 LPU(언어 처리 장치)라는 이름을 활용하나 구성은 상이하다. 하이퍼엑셀 LPU는 스마트폰 등에 쓰이는 LPDDR을 활용해 저전력 환경에 대응한다. 그록 3 기반 시스템이 실시간성, 초저지연을 바탕으로 한 초고속 서비스를 지향한다면 하이퍼엑셀은 상대적으로 단가가 낮고 저전력이면서 메모리 용량은 많은 환경에 적합하다.

당장 시장 겹치진 않지만 장기적으로 강력한 위협될 것

당장 엔비디아의 추론용 반도체가 국내 AI 반도체 기업들의 시장 전략과 직접적으로 일치하지 않는 건 장점이지만, 엔비디아가 추론 시장에 등장했다는 것 자체가 거대한 위협이다. 젠슨 황 엔비디아 CEO는 “AI는 생각하기 위해 추론하고, 행동해야 한다. AI가 발전할수록 우리는 더 똑똑해질 수 있으며 긍정적인 선순환에 도달했다. 이제는 추론의 변곡점의 시점”이라고 말했다. 앞으로 어떤 방식으로든 추론 시장에 강력한 영향을 행사하겠다는 대목이다.

차세대 그록 LP35 칩은 엔비디아 NVFP4를 지원해 생태계에 더욱 통합될 전망이다 / 출처=엔비디아

국내 AI 반도체 기업들이 이 위협에 대응하기 위해서는 소프트웨어 정의 하드웨어로서의 정체성을 강화해야 한다. 엔비디아가 시장에서 강세인 이유는 20년간 쿠다 소프트웨어로 시장 생태계를 다져왔기 때문이다. 즉 국내 기업들도 하드웨어에 맞는 소프트웨어 생태계를 만들고, 전력 소모대 성능비와 총소유비용 등 시장이 매력적으로 느낄만한 요소를 강화해야 한다. 정부도 K-클라우드 프로젝트 AI 고속도로 프로젝트 등을 통해 대규모 도입 사례를 확보하고, 해외 진출을 꾸준히 지원해야 한다.

젠슨 황 CEO는 작년 이맘때 2026년까지 AI 컴퓨팅 시장 규모가 5천 억 달러(약 745조 원)가 될 것이라 말했는데, 올해 GTC에서는 2027년까지 1조 달러(약 1490조 원)로 성장할 거라고 말했다. 그리고 이제는 학습을 넘어 추론 시장에서도 매출 확대를 노리고 있다. 그렇지만 1조 달러 규모의 컴퓨팅 시장은 하나의 기업과 아키텍처가 독점하는 것은 불가능하다. 국내 AI 반도체 기업들도 특화된 성능과 효율성을 앞세워 이 틈을 파고들어야 살아남을 수 있을 것이다.

IT동아 남시현 기자 (sh@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)

Copyright © IT동아. 무단전재 및 재배포 금지.