“엔비디아 잡는다”… 구글, 8세대 학습·추론용 TPU 공개

라스베이거스/강다은 특파원 2026. 4. 23. 00:33
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

5개월 만에 새로운 버전 나와
구글이 공개한 8세대 텐서처리장치(TPU)중 학습용 칩 8t(왼쪽)와 추론용 칩8i. /구글 클라우드

구글이 미국 라스베이거스에서 열린 연례 콘퍼런스 ‘넥스트 2026′ 사전 행사에서 8세대 텐서처리장치(TPU)인 AI 학습용 8t와 추론용 8i를 공개했다. 작년 11월 출시한 7세대 TPU로 AI 모델인 ‘제미나이3′ 성능을 크게 개선한 뒤 자신감을 얻은 구글이 5개월 만에 새로운 버전을 내놓으며 엔비디아 독주를 끝내겠다는 의지를 불태우고 있다.

◇학습용·추론용 TPU 따로 개발

구글이 TPU를 학습용과 추론용 두 종류로 출시한 이유는 AI 에이전트 시대가 본격화되며 AI 기능을 고도화하는 ‘학습’ 기능보다 실제 업무에 AI를 투입해 복잡한 업무를 단계적으로 해결하도록 하는 ‘추론’ 업무의 중요성이 커졌기 때문이다. 학습을 잘하려면 연산 처리량 자체를 높이는 것이 중요하지만, 추론을 잘하려면 지연이 적고 동시에 많은 일을 처리하는 것이 필요하다. 최근 반도체 업체들은 이러한 차이점에 주목하며 각각의 작업에 효율성을 극대화한 칩을 설계 중인데, 구글이 한발 앞서 치고 나가는 것이다.

그래픽=양인성

◇연산 3배 빠르고, 지연 현상 줄여

AI 학습용 8t는 수조 개의 숫자를 빛과 같은 속도로 계산하고 주고받을 수 있도록 설계된 칩으로, 전 세대 대비 연산 성능이 3배 증가했다. AI 추론용 8i는 지연 시간이 낮아 AI 에이전트가 여러 작업을 한꺼번에 처리하는 데 특화돼 있다. 속도가 AI 에이전트의 지능 수준을 가른다. 구글클라우드는 “전 세대보다 성능이 80% 향상됐고, 특히 ‘온칩 집단 연산’ 지연은 최대 5배 감소했다”고 했다. 하나의 칩은 수만 명 직원이 일하는 거대 공장과 같은데, 직원들이 회의를 하거나, 결과물을 합치고, 역할에 맞는 데이터를 나눠 갖는 과정을 거친다. 온칩 집단 연산은 이 과정을 칩 내부 초고속 전용 통로를 통해 즉각 처리하는 기술이다.

구글은 2015년 자체 AI 칩인 1세대 TPU(v1)를 공개한 뒤 2~3년에 한 번꼴로 새 TPU를 내놨다. 2022년 말 오픈 AI의 챗GPT가 공개된 후에는 매년 신제품을 냈다. 구글은 8세대 TPU를 연내에 출시한다. 현재 AI 인프라 투자 경쟁이 불붙으며 시장 1위 엔비디아의 그래픽 처리 장치(GPU) 공급이 부족한 상황인데, 구글은 기술 개발의 속도를 끌어올려 공급 부족의 ‘구멍’을 메우고, 엔비디아 제국에 균열을 내겠다는 목표다.

구글은 또 TPU·GPU·중앙처리장치(CPU)를 함께 묶은 통합 인프라로 AI 에이전트 시대를 주도하겠다는 구상이다.

◇빅테크 AI 칩 개발 경쟁 가열

AI 칩 시장 경쟁은 한층 더 치열해질 것으로 예상된다. 빅테크들은 고성능 엔비디아 AI 가속기와 함께 자사가 제작한 AI 칩을 동시에 써 각각의 작업에서 최고의 효율을 얻는 ‘칩 다양화’ 전략을 추구하고 있다.

올해 초 마이크로소프트(MS)는 ‘마이아 200’이란 자체 AI 칩을 내놨는데, 이 칩의 세일즈 포인트를 엔비디아 칩과 함께 쓰는 칩으로 잡았다. 메타도 MTIA 300 등 자체 AI 칩 4종을 동시에 공개했고, 엔비디아는 최근 인수한 ‘그록’의 언어처리장치(LPU)를 GPU와 함께 추론 작업에 활용하기로 했다. 테크 업계 관계자는 “앞으로 AI 작업에 맞춘 다양한 특화 칩을 선택해 극한의 효율을 추구하는 경향이 두드러질 것”이라고 했다.

☞TPU

텐서처리장치(TPU·Tensor Processing Unit)는 구글이 직접 설계한 반도체 칩. 머신러닝(기계 학습)과 딥러닝(심층 학습) 연산을 빠르게 처리하도록 고안됐다. AI(인공지능) 모델은 ‘텐서’라는 입체적인 데이터로 계산을 하는데, TPU는 이 텐서 연산을 더 빠르고 효율적으로 처리하도록 특화돼 있어 전력 소모가 그래픽처리장치(GPU)보다 상대적으로 적다.

Copyright © 조선일보. 무단전재 및 재배포 금지.