엔비디아 “베라 루빈·그록 결합… AI 팩토리 매출 두 배 기대” [GTC 2026]

권용만 기자 2026. 3. 17. 19:13
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

루빈 다음 세대는 ‘파인만’, 광연결 기술로 규모 확장 나선다

엔비디아의 차세대 인공지능(AI) 컴퓨팅 플랫폼으로 주목받는 '베라 루빈'에 '그록'의 언어 처리 칩이 추가됐다. 기존 그래픽처리장치(GPU) 기반 플랫폼에 그록의 LPU(Language Processing Unit)가 추가되면서 GPU의 처리량과 LPU의 초저지연 특성을 동시에 활용할 수 있게 됐다. 엔비디아는 이를 통해 기존 GPU기반 베라 루빈 플랫폼 대비 AI 팩토리의 매출 창출 기회를 두 배 높일 수 있을 것으로 기대하고 있다. 

엔비디아는 16일(현지시각) 미국 캘리포니아주 새너제이서 열린 GTC 2026의 기조연설을 통해 차세대 플랫폼 로드맵을 공개하고, '베라 루빈' 다음 세대로 '루빈 울트라'와 '로자-파인만'을 공식화했다. 특히 '로자-파인만' 세대에서는 GPU 성능 확장뿐 아니라 '그록' 칩을 플랫폼에 포함한 설계와 실리콘 포토닉스 기반 광 연결을 통해 확장성을 크게 높일 계획이다. 
GTC 2026 기조연설 무대에 오른 젠슨 황 엔비디아 CEO / 엔비디아 영상 갈무리

베라 루빈 플랫폼, '그록 3' 추가로 토큰 경제성 두 배 높여

엔비디아는 차세대 '베라 루빈' 플랫폼을 단순한 칩이 아닌 '플랫폼'과 '생태계' 관점에서 접근한다. 젠슨 황 엔비디아 CEO는 GTC 2026 기조연설에서 "이전에는 칩을 중심으로 발표했지만 이제는 그렇지 않다"며 "베라 루빈은 소프트웨어와 하드웨어가 통합된 엔드투엔드 대규모 시스템"이라고 설명했다.

이번 GTC 2026에서 엔비디아는 '베라 루빈' 플랫폼 구성을 업데이트했다. 기존 플랫폼은 '루빈' GPU와 '베라' CPU, 네트워크와 스토리지 기술을 포함해 총 6개 칩으로 구성됐지만 이번에 '그록 3' 기반 '그록 3 LPX'가 추가되며 7개 칩 구조로 확장됐다. 

플랫폼의 기본 구성은 '루빈' GPU와 '베라' CPU가 결합된 '베라 루빈' 슈퍼칩 모듈이다. 이 슈퍼칩 모듈은 노드 당 GPU 두 개와 CPU 한 개가 사용돼, 단일 NV링크 도메인에서 72개 GPU를 연결하는 NVL72 구성을 제공한다. 또한 베라 루빈 기반 컴퓨팅 노드는 케이블 없는 구조에 수랭 구성을 전제로 한 설계를 사용하고, 냉각수 온도 45도에서도 정상 사용 가능한 '고온 데이터센터' 환경을 지원해 에너지 효율을 최적화했다.

지금까지 엔비디아의 슈퍼칩에 사용된 CPU들은 GPU와 함께 제공됐지만, 베라 루빈에 사용되는 '베라' CPU는 프로세서 단독으로도 공급한다. 젠슨 황 CEO는 "베라 CPU 만으로도 상당한 수준의 매출을 기대한다"고 밝혔다. 또한 칩 단위에서 광 연결을 구현한 '스펙트럼-X 이더넷 포토닉스'는 이제 완전한 양산 단계에 들어섰다고 언급했다.
엔비디아 '그록 3 LPX' 주요 특징 / 엔비디아 영상 갈무리

엔비디아는 '베라 루빈' 플랫폼에 '그록 3' LPU를 사용한 '그록 3 LPX'를 공식적으로 추가했다. 루빈 GPU와 그록 3 LPU는 설계 방향성이 크게 다르다. 젠슨 황 CEO는 "루빈 GPU가 '처리량'에 중점을 뒀다면 그록 3 LPU는 지연 시간 등 '처리 속도'에 중점을 뒀다"며 "두 개의 칩에 적절히 워크로드를 할당해 처리량과 지연시간 모두를 만족시킬 수 있을 것"이라 제시했다. 

그록 3 LPU는 루빈 GPU의 3분의1 정도인 980억개 트랜지스터를 사용했고 연산 속도는 FP8 기준 1.2페타플롭스 정도다. 하지만 이 LPU의 특징은 칩의 트랜지스터 수준에서 구현된 500MB의 대용량 SRAM으로, 로직과 SRAM간의 대역폭은 루빈 GPU의 22TB/s HBM4 대역폭보다 6.8배 가량 높은 150TB/s에 이른다. '그록 3 LPX'는 노드 당 8개의 '그록 3 LPU'를 장착하고 랙 스케일로 확장해, 랙 단위에서는 32개 노드에 256개 칩으로 128GB SRAM 용량과 40PB/s 대역폭, 315페타플롭스의 연산 성능을 확보할 수 있다.

특히, 토큰 처리에서 다이나모의 적절한 관리를 통해 '루빈'이 프리필과 ATTN 디코드를, 그록 3가 FFN 디코드를 처리할 수 있게 해 성능과 반응성을 크게 올릴 수 있다고 언급했다. 이러한 특징을 잘 활용하면 '그록 3 LPX'가 포함된 베라 루빈 플랫폼은 기존 '블랙웰' 대비 10배의 매출 창출 기회를, 베라 루빈 GPU 기반만 사용하는 것보다도 두 배 더 큰 기회를 창출할 수 있을 것이라 제시했다.
엔비디아의 차세대 플랫폼 로드맵 주요 내용 / 엔비디아 영상 갈무리

루빈 다음 '파인만', NVL '광 연결' 확장한다

엔비디아의 '루빈' 다음 세대 GPU는 루빈의 확장 버전인 '루빈 울트라'가 준비된다. 이 '루빈 울트라'는 루빈 기반에서 칩 규모가 두 배로 확장되고, HBM4e 메모리를 탑재할 것으로 알려졌다. 또한 루빈 울트라는 '카이버' 랙 구성에서 랙당 144개 GPU인 NVL144 구성이 제공될 것으로 언급됐다. 

그록 3도 현재의 'LP30'에서 'LP35'로 업데이트되면서 NVFP4 데이터 형식 지원 추가로 토큰 처리 성능과 효율을 높일 것으로 기대된다. NV링크 7 스위치와 커넥트X-9(ConnectX-9) 스위치까지도 루빈 세대에서 예정돼 있다. 

블랙웰과 루빈 세대에의 랙스케일 확장에서 기준은 '구리선' 연결과 NVL72 정도다. 엔비디아는 이 랙스케일 확장에 실리콘 수준에서의 광 연결을 활용한다는 계획이다. 엔비디아가 공개한 로드맵에 나온 제품명 중 'CPO'가 붙은 것이 이 '광 연결'을 의미한다. 랙 형태 중 '오베론 NVL576' 등이 이러한 광 연결을 활용할 것으로 알려졌다. 

'베라 루빈' 세대 다음은 2028년에 예정된 '로자-파인만(Rosa-Feynman)'이다. 이 중 '파인만' GPU는 적층형 다이와 커스텀 HBM을 사용할 것으로 알려졌다. 파인만 세대의 플랫폼에서는 '그록' 팀과 설계 단계부터 협업해, 차세대 그록 'LP40'은 NV링크로 인프라에 직접 연결될 것으로 보인다. NV링크 연결이나 스펙트럼X 연결도 모두 실리콘 포토닉스 기반으로 구현한다는 계획이다. 랙 스케일에서는 광 연결 기반에서 '카이버 NVL 1152' 수준까지의 확장이 언급됐다.

한편, 엔비디아는 최적화된 AI 팩토리의 구현과 운영 등을 위한 '베라 루빈 DSX AI 팩토리 레퍼런스 디자인'과 '옴니버스 DSX 블루프린트'를 공식 발표했다. 이 디자인에는 컴퓨팅에서 시설까지 대규모 'AI 팩토리'를 구현하는 데 필요한 모든 구성 요소와 파트너 생태계가 포함됐고, 이를 '디지털 트윈'으로 구현해 최적 구현과 운영을 위한 시뮬레이션까지 가능하다.

권용만 기자

yongman.kwon@chosunbiz.com

Copyright © IT조선. 무단전재 및 재배포 금지.