구글, TPU 키우고 엔비디아도 품었다…AI 인프라 양손 전략[구글 클라우드 넥스트 2026]

원호섭 기자(wonc@mk.co.kr) 2026. 4. 23. 02:33
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

TPU 8세대 첫 공개 학습용·추론용 칩 분리
엔비디아 최신 GPU까지 품은 하이브리드 전략
AWS·애저 데이터 직접 읽는 멀티클라우드 확대
위즈 결합해 보안 자동화…AI 인프라 총력전
토마스 쿠리안 구글 클라우드 최고경영자(CEO)가 22일(현지시간) 미국 라스베이거스에서 열린 구글 클라우드 넥스트에서 기조강연을 하고 있다. [사진=구글]
22일(현지시간) 미국 라스베이거스 만달레이 베이에서 열린 ‘구글 클라우드 넥스트 2026’. 무대에 오른 아민 바흐닷 구글 클라우드 AI·인프라 부문 부사장 겸 최고기술책임자(CTO)는 “이제 컴퓨터는 더 이상 칩으로 정의되지 않는다. 컴퓨터는 데이터센터 전체”라고 선언했다. 인공지능(AI) 경쟁의 무대가 반도체 칩에서 전력, 냉각, 네트워크, 저장장치를 아우르는 통합 인프라로 옮겨갔다는 의미다.

이날 구글이 공개한 8세대 텐서처리장치(TPU)는 그 선언의 출발점이다. 구글은 자체 설계한 AI 칩 TPU를 처음으로 학습용 ‘TPU 8t’와 추론용 ‘TPU 8i’ 두 종류로 나눠 출시했다. 7세대 ‘아이언우드’까지는 학습과 추론을 하나의 칩에서 모두 처리해 왔지만 8세대부터는 용도별로 칩 자체를 갈라낸 셈이다.

학습용 TPU 8t는 대형 AI 모델을 빠르게 훈련시키는 데 맞춰 설계됐다. 한 묶음(팟)에 칩 9600개를 연결하면 초당 121엑사플롭스 수준의 연산 성능을 낸다. 이전 세대인 아이언우드보다 약 2.8배 강해졌다. 한 번에 처리할 수 있는 데이터 용량도 크게 늘어 공유 메모리 규모는 2페타바이트에 달한다. 구글은 이를 두고 “미국 의회도서관 디지털 자료 전체를 100번 저장할 수 있는 수준”이라고 설명했다.

추론용 TPU 8i는 챗봇 답변 생성이나 AI 에이전트 운영처럼 실제 서비스 처리에 맞춰 만들었다. 데이터를 임시 저장하는 메모리를 칩 안에 넣어 긴 문장을 읽고 이해할 때 속도가 떨어지는 문제를 줄였다. 칩 1152개를 묶은 시스템 기준 성능은 이전 세대보다 9.8배 높아졌고, 같은 비용으로 더 많은 작업을 처리할 수 있도록 가격 대비 효율도 80% 개선됐다.

눈길을 끈 부분은 구글이 자체 TPU를 강화하면서도 엔비디아와 협력을 확대했다는 점이다. 구글 클라우드는 엔비디아의 차세대 AI 서버 플랫폼 ‘베라 루빈 NVL72’를 가장 먼저 제공하는 사업자 가운데 하나가 된다. 기업 고객은 구글이 만든 TPU뿐 아니라 엔비디아 최신 GPU도 구글 클라우드에서 빌려 쓸 수 있게 되는 셈이다.

바흐닷 CTO는 “베라 루빈 NVL72는 긴 문맥을 처리하는 AI 작업에서 구글 클라우드 환경 기준 최대 10배 높은 효율을 낸다”고 말했다. 구글의 자체 네트워크 기술 ‘비르고’도 엔비디아 GPU 서버에 적용돼 최대 96만개의 GPU를 하나처럼 연결해 운영할 수 있다고 설명했다.칩이 아무리 빨라져도 데이터를 제때 공급하지 못하면 무용지물이다. 구글이 새 네트워크 비르고와 저장장치 개편을 함께 들고 나온 이유다. 비르고는 13만4000개 칩을 초당 47페타비트의 비차단 대역폭으로 연결해 단일 클러스터에서 100만개 이상의 TPU 칩을 한꺼번에 가동할 수 있게 한다. 총 연산 성능은 170만 엑사플롭스. 학습에 수개월이 걸리던 모델을 수주 만에 끝낼 수 있다는 게 회사 측 설명이다.

구글 클라우드 넥스트 2026이 열리는 미국 라스베이거스 만달레이 베이 [사진=원호섭 특파원]
저장장치도 보강됐다. 매니지드 러스터는 초당 10테라바이트의 처리량을 지원해 업계 최고 수준이라고 회사는 밝혔다. 자체 암(ARM) 기반 CPU ‘액시온 N48’ 인스턴스는 동급 x86 인스턴스 대비 가격 대비 성능이 최대 2배, 와트당 성능은 80% 우수하다.

운영 단계에서도 AI가 직접 일한다. 구글은 모든 클라우드 서비스를 모델 컨텍스트 프로토콜(MCP)로 묶어 에이전트가 직접 호출할 수 있도록 했다. 제미나이의 추론 능력을 자체 텔레메트리에 결합해, 시스템이 스스로 장애 원인을 분석하고 잘못된 설정을 사용자가 인지하기 전에 수정한다. 이른바 ‘스스로 굴러가는 클라우드’다. 세계 최대 마켓메이커인 시타델 시큐리티스는 구글 TPU를 활용해 동일 워크로드를 2~4배 빠르게, 비용은 30% 낮춰 처리하고 있다. 같은 회사 관계자는 “수일이 걸리던 작업을 수시간, 수분 만에 끝낼 수 있게 됐다”고 말했다.

데이터 인프라에서도 큰 변화가 나왔다. 구글은 데이터를 옮기지 않고 분석하는 ‘크로스 클라우드 레이크하우스’를 공개했다. 분석 엔진은 구글 클라우드에 두되 아마존웹서비스(AWS)나 마이크로소프트(MS) 애저에 저장된 데이터를 마치 구글 클라우드 안에 있는 것처럼 직접 처리할 수 있도록 했다. 오픈소스 표준 ‘아파치 아이스버그’ 위에 만들어졌고, 데이터 전송 비용(이그레스)도 낮췄다.

카르틱 나레인 구글 클라우드 부사장은 “기존 레이크하우스는 분석 엔진과 데이터 저장소가 같은 클라우드에 있어야 한다는 가정에서 출발했지만, 이 방식은 더 이상 통하지 않는다”고 말했다. 멀티 클라우드를 쓰는 기업이 늘어나는 현실에 맞춰, 분석 인프라의 ‘국경’을 허물겠다는 것이다.

보안 영역에서는 지난해 인수한 클라우드 보안 기업 위즈(Wiz)가 처음으로 구글 인프라와 통합된 모습을 선보였다. 새 제품 ‘위즈 앱’은 코드·클라우드·런타임 환경을 묶어 AI 애플리케이션과 에이전트의 보안 상태를 한 화면에서 관리한다. 레드·블루·그린이라는 이름의 AI 에이전트가 각각 침투 테스트, 위협 탐지, 취약점 자동 수정을 맡는다.

프란시스 디수자 구글 클라우드 보안 부문 사장은 “취약점이 노출되는 시간은 이제 패치가 나오기 7일 전 수준까지 빨라졌고 초기 침투에서 2차 공격으로 넘어가는 시간도 8시간에서 22초로 줄었다”며 “보안도 머신 속도로 움직여야 한다”고 말했다. [라스베이거스 원호섭 특파원]

Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지