8세대 TPU 내놓으며 96만 대 GPU 주문한 구글··· 배경엔 '인프라 이원화' 전략

남시현 2026. 4. 30. 16:06
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

[IT동아 남시현 기자] 구글이 지난 4월 22일에서 24일(현지시각) 개최한 ‘구글 클라우드 넥스트 2026’은 구글의 미래 인프라스트럭처 전략을 확인할 수 있는 중요한 자리였다. 해당 행사에서 구글은 기업 환경을 위한 제미나이 엔터프라이즈 플랫폼, 에이전틱 데이터 클라우드, 에이전틱 디펜스 등 산업 환경에 초점을 맞춘 AI 설루션을 주로 선보였다. 최근 생성형 AI 기조가 결론까지 직접 수행하는 에이전틱 AI로 진화하고 있음을 확인할 수 있었다. 그런데 업계의 시선은 새로운 제미나이 AI 에이전트보다도 구글의 8세대 TPU, 그리고 96만 개의 엔비디아 루빈 GPU를 주문한 점에 쏠렸다.

학습과 추론으로 이원화된 구글 8세대 TPU, 어떻게 바뀌었나?

구글이 구글 클라우드 넥스트 2026에서 8세대 TPU를 공개했다 / 출처=구글

구글은 2016년 5월부터 인프라 비용 절감과 인프라스트럭쳐 영향력 확보를 위해 시스톨릭 어레이 기반의 자체 반도체 ‘TPU’를 개발해 왔다. 이번 구글 클라우드 넥스트에서는 8세대 버전이 출시되었으며 특히 AI 모델 구축 용도인 TPU8t, AI 모델 운용 용도의 TPU8i로 이원화된다. 앞서 구글은 제미나이 3 개발에 TPUv7만을 활용한 데다가 기대 성능이 굉장히 높아 전 세계적인 주목을 받았다. 그런데 이번에 개발된 8세대 칩은 추론과 학습을 별도로 분리한 게 특징이다.

두 칩은 활용 환경에 따라 메모리와 용량, 통신 규격 등이 각각 조정된 게 특징이다 / 출처=구글 블로그

TPU 8t는 학습(Training) 전용 칩이다. 최대 9600개의 칩과 2 페타바이트의 고대역폭 메모리로 확장할 수 있으며, 칩 간 대역폭이 19.2테라바이트로 전작 대비 두 배나 높아졌다. 또한 10배 빠른 저장장치 접근 속도와 TPU에 직접 데이터를 가져오는 기능을 통해 활용도를 높였다. 또한 4비트 부동소수점(FP4) 형식을 도입해 행렬 연산 유닛(MXU)의 데이터 처리량을 거의 두 배까지 늘렸다.

TPU 8i는 추론(Inference) 전용 칩이다. 단일 장치에 288GB의 고대역폭 메모리와 384MB의 SRAM을 탑재해 한 번에 올릴 수 있는 모델의 크기와 속도가 모두 향상됐다. 프로세서도 자체 개발한 악시온(Axion) CPU로 전환했다. 19.2테라바이트의 메모리 대역폭 덕분에 전문가 혼합(MoE) 모델활용도가 매우 높아졌다. 또한 보드플라이라는 새로운 계층적 네트워크 구조를 채택해 칩간 통신 거리를 의미하는 네트워크 직경을 50% 이상 축소했다.

TPU 8t는 가용성 및 서비스 용이성을 97% 이상으로 높여 대규모 모델 개발 시 효율성을 높이는데 최적화된 칩이고, TPU 8i는 고성능 AI 모델을 대규모로 운용하고 병목 없이 수행하는데 초점을 맞춘 사양이다.

전 세대인 TPU v7은 칩 하나가 추론, 학습을 모두 수행하는 구조였다. v8은 이 부분을 용도에 맞게 나누면서 활용 성능을 높였다 / 출처=구글

전작인 TPU v7, 코드명 아이언우드는 클라우드 서비스 제공자가 직접 개발한 반도체가 상용 목적으로 널리 쓰일 수 있음을 본격적으로 증명한 칩이다. 구성 면에서는 엔비디아 GPU처럼 학습과 추론을 모두 수행하는 게 가능하고, 지금도 제미나이 서비스는 TPU v7을 주력으로 서비스된다. 하지만 구글 같은 하이퍼스케일러 입장에서는 약간의 성능 효율 차이도 큰 비용 효율로 이어지는 만큼 8세대는 동작 방식과 효율에 따라 반도체를 구분한 것이다.

구글 측이 밝힌 TPU v8의 전력 소모대 학습 성능은 전작 대비 약 3배 높아졌으며, 추론 성능은 약 1.8배 높다. 이에 따른 전력 효율 차이는 거의 두 배에 가깝다. 저장장치 접근 성능도 약 10배 높아지면서 대규모 AI 개발 시 작업 효율도 자연스레 높아졌다.

대규모 TPU 운용과 별도로 엔비디아 GPU 96만 대 구입한 구글

구글의 차세대 A5X 베어메탈 인스턴스에 엔비디아 루빈 GPU 96만 대가 활용된다 / 출처=엔비디아

사실 인프라 업계에서 놀란 부분은 8세대 TPU가 추론과 학습 용도로 나뉘어서 출시된다는 점보다도, 이 제품을 출시하면서도 무려 96만 대의 엔비디아 루빈 GPU를 구매한다는 데서 나왔다. 구글은 클라우드 넥스트를 통해 엔비디아와 협업해 A5X 베어메탈 인스턴스를 새롭게 선보였다. A5X 베어메탈 인스턴스는 단일 데이터센터에서 약 8만 개의 GPU, 여러 데이터센터에 걸쳐 총 96만 대의 GPU를 장착한다.

또한 구글의 ‘비르고’ 네트워킹과 엔비디아 커넥트X-9 슈퍼닉(SuperNIC)을 결합해 처리량을 10배 높이고, 제미나이 모델의 추론 비용도 더 낮출 예정이다. 비르고 네트워크는 구글의 AI 데이터센터를 연결하는 최신 네트워크 연결 방식이다. 단일 패브릭으로 최대 47페타비트의 양방향 대역폭을 제공해 총 13만 4000개의 TPU 8t 칩을 연결하고, 지연 시간은 최대 40% 단축한다. 그리고 이 기술을 구글의 차세대 연결 방식인 커넥트X-9을 채택해 데이터센터에서 엔비디아의 기술을 활용하겠다는 것이다.

오픈AI가 텍사스 주 아빌린에 건설 중인 스타게이트 프로젝트 데이터센터 현장, 이런 규모의 데이터센터가 미국 이외에 네 곳 이상에서 진행되는데 이 전체 규모를 두배 이상 초과한다 / 출처=오픈AI

구글이 주문한 GPU 96만 대는 마이크로소프트와 오픈AI가 진행 중인 스타게이트 프로젝트의 초기 규모인 40만 대의 두 배 이상이고, 젠슨 황이 지난해 우리나라를 방문해 제공하기로 한 GPU 26만 대의 네 배에 가까운 값이다. 즉 업계에서도 특정 세대의 GPU를 100만 대 가까이 구매하는 것이 이례적이라는 평가다. 그렇다 보니 ‘구글이 TPU를 대규모로 제작하면서도 GPU를 구매하는 건 결국 TPU에 자신감이 없어서가 아닐까?’라는 의구심이 제기될 수밖에 없다.

이에 대해 아민 바흐다트 구글 AI 및 인프라 담당 수석 부사장 겸 최고기술책임자는 블로그를 통해 “ 구글이 엔비디아와 협력해 최신 GPU를 제공하는 것은 고객마다 워크로드, 요구사항, 사용 사례가 다르기 때문에 모든 사례에 동일한 설루션을 제공할 수 없기 때문이다”라면서 “올해 말 차세대 베라 루빈 플랫폼이 출시되면 구글이 가장 먼저 인스턴스를 제공할 예정”이라고 밝혔다. 그러면서 GPU와 TPU 이외에도 새로 자체제작한 엑시온 CPU, 인텔, AMD의 CPU도 각각 활용한다는 점을 밝히며 생태계에서 필요한 다양한 요구사항을 위해 엔비디아 제품을 구매한다는 뜻을 명확히 했다.

엔비디아의 독무대인 데이터센터 시장, 효율성이 균열을 만들다

엔비디아 루빈 GPU 반도체 칩 / 출처=엔비디아

구글의 대규모 TPU, GPU 서비스는 앞으로 엔비디아의 위상이 과거와 같지 않으리라는 점을 시사한다. 엔비디아는 2022년 출시된 호퍼 아키텍처, 2025년 출시된 블랙웰 아키텍처를 바탕으로 데이터센터 시장에서 90% 가까운 시장 점유율을 확보한 상태다. 다만 GPU의 구조적인 한계로 인해 전력 소모대 성능비는 떨어졌고, AI로 인한 GPU 수요 폭증으로 총 소유비용은 급격히 높아졌다. 이때문에 구글, AWS, 마이크로소프트, 메타까지 자체 반도체를 설계해 엔비디아의 영향력을 줄이려 한다.

그리고 업계에서도 TPU에 새로운 가능성을 보고 있다. 앤트로픽은 TPU 100만 대에 해당하는 3.5기가와트 급의 컴퓨팅 용량을 예약했고, 메타 역시 조 단위의 계약을 통해 TPU v8 활용을 확정 지은 상황이다. 마이크로소프트 계열인 오픈AI 조차 지난해 구글 TPU를 시험 중이라고 밝힌 점도 대안 반도체의 가능성을 엿볼 수 있는 대목이다. 물론 엔비디아 역시 루빈 아키텍처를 예정대로 빠르게 출시했고 2028년 중 파인만 아키텍처를 통해 영향력을 꾸준히 이어나갈 전망이다.

구글의 TPU·GPU 이원화, 생존력을 높이기 위한 고도의 전략

구글 TPU 8t와 8i의 반도체 칩, 8i쪽 메모리 용량이 더 크다보니 실물 반도체 메모리도 조금 더 큰 편이다 / 출처=구글

결론적으로 구글이 GPU를 구매하는 것은 TPU에 자신감이 없어서가 아니라 시장 점유율을 이어나가기 위한 전략이다. 이미 구글 클라우드 고객 중 상당수는 엔비디아 소프트웨어 생태계에 편입된 개발자들이고, TPU는 어디까지나 대안이다. 또한 실시간 추론이나 범용 연구에는 GPU를 통한 가속컴퓨팅이 효과적일 수밖에 없다는 건 구글도 인정하는 바다.

물론 언제든지 자체 반도체로 전환할 수 있다는 카드를 쥐고 있음으로써 엔비디아와의 가격 협상에서 우위를 점할 수 있고, 데이터센터 운영이나 소프트웨어 측면에서도 엔비디아 기술의 종속성을 낮추는 효과가 있다.

구글은 엔비디아를 통해 시장 점유율을 방어하는 동시에 TPU를 통해 컴퓨팅 주권도 확보하고 있다. 엔비디아가 독점해온 AI 반도체 시장은 이제 구글처럼 범용 GPU와 특화 주문형 반도체(ASIC)가 공존하는 방향이 되고 있고, 시장의 승자를 가리기보다는 연결된 생태계 기업 전반이 공동으로 생존하는 방향으로 나아갈 전망이다.

IT동아 남시현 기자 (sh@itdonga.com)

사용자 중심의 IT 저널 - IT동아 (it.donga.com)

Copyright © IT동아. 무단전재 및 재배포 금지.