[IT큐레이션] AWS·구글·MS AI칩 전격전, 그리고 엔비디아

트레이니움3·아이언우드·마이아 200으로 격돌…학습은 엔비디아, 추론은 자체 칩 구도?

AI 인프라 시장의 무게중심이 이동하고 있다. 지난 3년간 엔비디아 GPU 한 종목으로 굴러가던 AI 반도체 판이 클라우드 3강의 자체 설계 칩 진입으로 다극 체제로 재편되는 흐름이 뚜렷하기 때문이다.

실제로 아마존웹서비스(AWS)는 트레이니움3와 그래비톤5라는 양날의 검을 들었으며 구글은 7세대 아이언우드에 이어 8세대 TPU까지 공개하며 학습과 추론을 분리하는 수직계열화 승부수를 던졌다. 마이크로소프트도 움직이는 중이다. 마이아 200으로 추론 시장에 정면 베팅, 다양한 가능성을 타진하는 중이다.

물론 엔비디아의 시장 점유율은 여전히 80%를 웃돈다. 2026년 하반기 출시될 차세대 아키텍처 루빈은 블랙웰 대비 추론 성능을 5배 이상 끌어올리는 것을 목표로 한다. HBM4를 처음 도입해 메모리 병목까지 정면 돌파하겠다는 구상이다.

핵심은 엔비디아의 절대 권력에 직접 도전하는 것이 아니다. 엔비디아 의존이 만든 비용 구조와 전력 부담을 자체 칩으로 우회하는 전략이다. 실제로 학습은 엔비디아 GPU에 맡기되 실제 서비스를 돌리는 추론 영역에서 자체 칩의 비중을 끌어올려 AI 경제성을 자력으로 통제하겠다는 큰 그림이 그려지는 중이다.

다만 클라우드 3강의 1분기 실적과 칩 로드맵을 들여다보면 엔비디아 단일 의존 시대의 끝이 가까워지고 있다는 신호가 곳곳에서 잡힌다. 이런 가운데 시장조사업체들은 2026년이 AI 추론용 컴퓨팅 지출이 학습용을 처음으로 추월하는 해가 될 것으로 본다. 추론 시대로 무게중심이 옮겨가는 순간 자체 칩의 가성비 경쟁력이 본격적으로 빛을 발하는 순간이다.

AWS, 안나푸르나 10년 기술력으로 가성비 정면 승부
AWS는 클라우드 3강 중 가장 일찍 자체 칩 전략을 시작했다. 2015년 이스라엘 칩 설계사 안나푸르나 랩스를 3억5000만달러에 인수하며 토대를 마련했으며, 이를 바탕으로 다양한 칩 라인업을 기민하게 마련했기 때문이다.

AWS의 자체 칩 라인업은 AI 학습용 트레이니움, 범용 CPU인 그래비톤, AI 추론용 인퍼런시아, 인프라 가상화용 니트로 등 네 갈래로 짜여 있다.

먼저 트레이니움이다. 지난해 12월 리인벤트에서 공개된 트레이니움3는 4세대 AI 학습 칩이다. TSMC 3나노 공정으로 제작돼 트레이니움2 대비 컴퓨팅 성능이 4.4배, 메모리 대역폭이 약 4배 향상됐다는 설명이다. 칩당 2.52 PFLOPS의 FP8 성능을 제공하며 MXFP8과 MXFP4 등 차세대 데이터 정밀도 형식을 지원한다. 와트당 성능이 전작 대비 4배 개선되며 메가와트당 5배 더 많은 토큰을 생성할 수 있다는 것이 AWS 측 설명이다.

핵심은 개별 칩이 아니라 이를 묶어내는 시스템이다. 실제로 AWS는 단일 서버 랙에 144개의 트레이니움3 칩을 집적한 Trn3 울트라서버를 구현해 눈길을 끈다. 단일 시스템에서 362 PFLOPS 연산 능력과 20.7TB의 HBM3e 메모리를 제공한다는 무시무시한 설명이 나왔다.

여기가 끝이 아니다. 칩 간 대역폭 2TB/s의 뉴런링크-v4가 엔비디아 NVLink(1.8TB/s)를 추월했고 144개 칩 간 올투올 통신을 10마이크로초 미만 지연으로 처리하는 뉴런스위치-v1이 결합된다. EC2 울트라클러스터 3.0으로 확장하면 100만 개 트레이니움 칩을 단일 가상 슈퍼컴퓨터로 묶을 수 있다. 일종의 집적화로 성능의 한계를 돌파하는 신선한 발상이다.

여기에 범용 CPU 그래비톤도 5세대까지 진화했다. 그래비톤5는 3나노 공정에 192코어를 탑재하고 캐시를 5배 확장해 코어 간 통신 지연을 33% 단축했다.

가장 빠른 행보를 보이는 칩이라는 평가다. 당장 AWS 신규 CPU 용량의 절반 이상이 이미 그래비톤 기반이며 상위 1000개 EC2 고객 중 98%가 그래비톤을 사용한다. 메타도 지난달 28일 그래비톤5를 수천만 코어 규모로 도입하는 다년 계약을 체결해 눈길을 끈다. 산토시 자나단 메타 인프라 책임자는 "AWS와의 협력을 통해 에이전트 AI를 뒷받침하는 CPU 집약적 워크로드를 메타의 규모에 걸맞은 성능과 효율로 실행할 수 있게 됐다"고 말했다.

메타가 같은 빅테크의 자체 칩을 대규모로 받아들였다는 사실은 엔비디아 GPU 단독 의존에서 벗어나는 빅테크 간 합종연횡의 새로운 단면으로도 해석된다.

한편 추론 영역에서는 인퍼런시아2가 칩당 190 TFLOPS의 FP16 성능과 32GB HBM을 제공한다.

현재 AWS는 인디애나주에 트레이니움2 약 50만 개로 구성된 'Project Rainier' 클러스터를 가동 중이다. 앤스로픽 클로드 모델 학습을 위한 전용 인프라로 Project Rainier는 자체 칩이 프론티어 모델 학습이라는 가장 까다로운 영역에서도 작동한다는 점을 입증했다.

성과는 1분기 실적으로 가시화됐다. 1분기 AWS 매출은 376억달러로 28% 성장하며 15분기 만에 가장 빠른 분기 성장세를 기록했다. 이 지점에서 자체 칩 사업의 연환산 매출은 200억달러를 돌파했다는 설명이다.

특히 오픈AI가 2027년부터 트레이니움 2GW 용량을, 앤스로픽이 5GW를 사용하기로 한 점은 자체 칩 전략의 외연이 외부 빅테크로 확장되고 있음을 보여주는 결정적 장면이다. 심지어 앤디 재시 아마존 CEO는 두 대형 AWS 고객이 2026년 그래비톤 인스턴스 용량 전체를 사겠다고 요청했다 말했다.

자체 CPU의 시장 지배력이 이미 임계점을 넘었음을 시사한다. AWS는 NVLink Fusion까지 지원하는 트레이니움4 개발 소식도 예고하며 엔비디아 GPU와의 하이브리드 인프라 시장까지 정조준했다.

구글, 학습과 추론 분리한 8세대 TPU로 수직계열화 승부수
구글은 자체 AI 칩 진영의 원조다. 2015년 1세대 TPU를 내부에서 가동하기 시작해 2018년 외부 판매에 나섰고 지금까지 8세대까지 라인업을 확장했다.

의미있는 진화를 보여준 것은 6세대부터다. 6세대 트릴리엄(TPU v6)은 칩당 4.7배 성능 개선과 67% 향상된 에너지 효율로 시장을 놀라게 했고 7세대 아이언우드(TPU v7)는 추론 시대를 정조준한 첫 TPU로 자리 잡았다. 특히 아이언우드는 칩당 192GB HBM3e를 탑재해 트릴리엄 대비 메모리 용량을 6배, 대역폭을 4.5배(7.37TB/s) 끌어올렸다.

단일 팟 내 9216개 칩을 직접 연결해 42.5 EFLOPS 연산 능력을 구현한다. 광회선 스위칭 기술 팔로마는 전자 스위치 대비 전력 소비를 95% 이상 절감하며 전성비 업그레이드라는 최신 트렌드도 놓치지 않았다.

지난달 22일 라스베이거스에서 열린 '구글 클라우드 넥스트 2026'에서 공개된 8세대 TPU는 한 단계 더 나아갔다. 학습 전용 'TPU 8t'와 추론 전용 'TPU 8i'로 칩을 분리했기 때문이다.

신선한 발상이다.

먼저 TPU 8t는 단일 슈퍼포드 기준 9600개 칩을 연결해 121 엑사플롭스 성능을 발휘하며 버고 네트워크와 결합하면 단일 클러스터 내 100만 개 칩을 하나처럼 가동할 수 있다. TPU 8i는 칩당 288GB HBM과 384MB 온칩 SRAM을 탑재했고 보드플라이 아키텍처로 데이터 전송 경로를 절반으로 줄여 에이전트 구동 시 지연을 최소화했다. 달러당 성능은 이전 세대 대비 80% 개선됐다.

토머스 쿠리안 구글 클라우드 CEO는 "생성 AI가 폭넓게 확산했을 때 사람들이 학습에 최적화한 시스템과 추론에 맞춘 시스템을 각각 원할 것으로 판단했다"며 "AI 인프라 확장에서 전력이 제약 요인이 될 것을 예상하고 설계 단계부터 에너지 효율 극대화에 중점을 뒀다"고 말했다. 8세대 TPU는 구글 자체 ARM 기반 CPU 액시온 헤더를 통합해 에너지 효율을 2배 개선했다.

한편 강력한 AI 인프라는 구글 알파벳의 성과로 구현되는 중이다. 알파벳 1분기 매출은 1099억달러로 22% 늘었고 구글 클라우드 매출은 200억2000만달러로 63% 폭증해 처음 200억달러를 넘었다.

여기서 클라우드 수주 잔고는 직전 분기 2400억달러에서 4600억달러로 두 배 가까이 불었다. 알파벳은 이 지점에서 TPU를 일부 고객사에 직접 판매하기 시작했고 제미나이에 광고 도입을 장기 검토 중이라고 밝혔다. 그동안 TPU는 구글 클라우드를 통한 임대 방식이었지만 직판으로 노선을 바꾸면 엔비디아·AMD와 정면 충돌하는 구도가 된다. 아낫 아슈케나지 알파벳 CFO는 TPU 직판 매출이 올해 말부터 일부 인식되고 대부분은 2027년에 잡힐 것이라고 전망했다.

물론 외부 시장 확장은 녹록지 않다. 디 인포메이션에 따르면 네비우스·람다·코어위브 등 주요 AI 데이터센터 사업자들은 "당장 TPU를 도입할 계획이 없다"는 입장이다. 척 피셔 람다 CFO는 "우리는 람다에서 녹색 피가 흐른다"며 엔비디아 색깔을 내세웠고, 마크 보로디츠키 네비우스 CRO는 "고객 수요의 99%가 엔비디아 GPU에 있다"고 말했다.

여기에는 정치적 문제도 있다. 당장 엔비디아가 코어위브에 20억달러, 네비우스에 20억달러, 람다에도 투자하며 핵심 공급사이자 주요 투자자로 묶여 있다는 점이 자체 칩 외부 확산의 결정적 장벽으로 작용한다.

물론 구글도 물러나지 않을 전망이다. 한 대형 투자회사와 TPU를 고객에게 임대하는 합작 회사를 만들기로 합의하고 TPU 임대용 특수목적법인을 위한 자금 조달까지 검토하는 중이다. 일종의 우회 전략이다. 성과도 나는 중이다. 외부 파트너십에서 가장 큰 성과는 앤스로픽이다. 앤스로픽은 구글과 수십억달러 규모 장기 계약을 통해 최대 100만 개의 TPU 접근권을 확보했다.

MS, 마이아 200으로 추론 올인
마이크로소프트는 빅테크 중 자체 칩 출발이 가장 늦었다. 2023년 11월 마이아 100과 코발트 100을 동시에 발표했지만 마이아 100은 이미지 처리용으로 설계돼 실제 생성형 AI 서비스에는 활용되지 않고 내부 직원 교육용으로만 쓰인 것으로 보인다.

MS의 자체 칩 전략이 본격화되는 분기점은 마이아 200(코드명 브라가)이다.

마이아 200은 TSMC 3나노(N3) 공정으로 단일 다이에 1400억 개의 트랜지스터를 집적했다. 학습과 추론을 모두 아우르려 했던 기존 범용 GPU와 결을 달리해 추론 효율성에 철저히 집중한 설계다. FP4 연산에서 칩당 10 PFLOPS 이상의 성능을 제공하며 양자화된 LLM 운영에 최적화됐다.

칩당 216GB HBM3e와 7TB/s 대역폭은 엔비디아 블랙웰 B200(192GB)을 상회하는 수치다. 272MB 대용량 SRAM을 통합해 칩 외부 메모리 접근을 줄였고 ATL 독자 프로토콜로 표준 이더넷만으로 6144개 가속기를 묶을 수 있도록 설계했다.

MS는 마이아 200을 MS 365 코파일럿과 오픈AI의 GPT-5.2 추론 인프라에 투입한 결과 기존 범용 하드웨어 대비 가성비가 30% 이상 개선됐다고 밝혔다.

문제는 양산이다. 오픈AI 요청 설계 변경과 인력 이탈로 6개월 이상 지연됐다는 설명이다. 후속작 브라가-R, 클레아(마이아 300)는 2026·2027년 순차 배치 로드맵에 올라 있지만 마이아 300이 나오기 전까지는 엔비디아와 본격 경쟁이 어렵다는 평가가 우세하다. 코발트 100 ARM CPU는 ARM Neoverse N2 기반 128코어 구성으로 Azure SQL·Teams 등 내부 워크로드에 적용되며 2세대가 개발 중이다.

물론 MS 클라우드 인프라 경쟁력은 여전히 매섭다. 1분기 매출 828억9000만달러, 클라우드 매출 545억달러로 29% 성장했고 애저 등 인텔리전트 클라우드 부문이 40% 뛰었다. AI 사업의 연환산 매출은 370억달러를 돌파해 전년 대비 123% 늘었으며 코파일럿 유료 좌석은 2000만 개를 넘겼다. 다만 4분기 영업이익률이 46.3%에서 44%로 둔화될 것이라는 가이던스, 연간 자본지출 1900억달러 계획, 부품 가격 상승만으로 약 250억달러 추가 비용이 예상된다는 점은 부담이다.

잠재력은 크지만 리스크도 만만치 않다는 뜻이다. 당장 칩 개발에 들어갈 리소스가 흔들릴 수 있다는 말이 나온다. 실제로 레베카 웨터먼 발루아 CEO는 "구글이 매출과 이익 전망치를 훌쩍 넘은 상황에서 MS의 AI 인프라 투자에 대한 의구심이 커졌다"고 진단하기도 했다. MS의 케빈 스콧 CTO도 "엔비디아와 AMD를 어디서든 가장 좋은 곳에서 쓰겠다"며 자체 칩 전환이 점진적임을 시사한 바 있다.

학습은 여전히 엔비디아
클라우드 3사의 칩 전략이 내부를 넘어 외부까지 번지는 가운데 GPU 중심의 엔비디아와 벌이는 치열한 전투의 향방도 업계의 관심사로 부상하는 중이다.

이 지점에서 흥미로운 사건들이 벌어지고 있어 눈길을 끈다. 바로 메타 스토리다.

지난 2월 메타는 엔비디아와 다년 GPU·CPU 공급 계약을 체결했다. 차세대 GPU 블랙웰·루빈에 더해 엔비디아 독자 CPU 그레이스를 데이터센터 단독 서버용 프로세서로 채택했다. 인텔과 AMD가 양분해온 데이터센터 CPU 시장에서 초대형 운영사가 엔비디아 CPU를 메인 프로세서로 선택한 첫 사례다. 오하이오주 1GW급 프로메테우스와 루이지애나주 5GW급 하이페리온 데이터센터를 엔비디아 하드웨어로 채우게 된 메타는 자체 칩 개발 지연과 폭증하는 학습 수요를 감당하기 위해 엔비디아 풀스택을 선택할 수밖에 없었다는 분석이 나온다.

눈길을 끄는 점은 메타가 두 달 뒤 AWS 그래비톤5 대규모 도입 계약을 체결했다는 사실이다. 학습은 엔비디아 GPU와 그레이스 CPU에 맡기고 에이전트 AI 추론과 다단계 워크로드는 AWS 그래비톤에 분산하는 이중 트랙 전략이다. 산토시 자나단 메타 인프라 책임자는 "컴퓨팅 소스의 다변화는 메타의 AI 전략에서 필수 과제"라고 말했다.

메타의 행보는 연산 중심의 GPU 일변도를 넘어 CPU까지 확장되는 AI칩 전략의 스펙트럼 확장과 더불어, 빅테크가 엔비디아의 최대 고객이자 잠재적 경쟁자라는 기묘한 동거 관계를 단적으로 보여준다. 학습은 여전히 엔비디아라는 뜻이다. 실제로 월가 애널리스트들은 빅테크가 자체 칩을 만들더라도 프론티어 모델의 초기 학습과 고사양 연산에는 여전히 엔비디아 칩 외에 대안이 없다고 입을 모은다.

물론 시장의 트렌드가 학습에서 추론으로 넘어갈 경우 상황은 또 달라질 수 있다. 벤 바자리 크리에이티브 스트래티지스 CEO는 "이제는 AI 모델 훈련 시대에서 추론 시대로 넘어가고 있으며 이는 완전히 다른 접근 방식을 요구한다"고 분석했다. 자체 칩의 진짜 무대는 학습이 아니라 추론과 일반 워크로드라는 진단이다. 이렇게 되면 엔비디아는 새로운 도전을 맞이하게 되는 셈이다.

그리고, 쿠다
현재 칩 시장은 혼란 그 자체다. 당장 2026년분 CoWoS 패키징과 HBM 물량은 이미 1군 하이퍼스케일러와 엔비디아가 선점한 상태다.

자금력이 부족한 기업들은 칩을 설계하고도 생산하지 못하거나 데이터센터 전력 부족으로 자본이 묶이는 좌초 자산 리스크에 직면해 있다. 1분기 빅테크 4사가 올해 AI에 투입하겠다고 예고한 자본지출 합산은 7250억달러, 한화 약 1079조원에 달한다. 한국 정부 1년 예산의 1.5배에 해당하는 자금이 AI 인프라 한 곳으로 몰리는 셈이다.

이런 가운데 AWS는 안나푸르나 10년 기술력에 기반한 시스템 통합과 가성비로 외부 빅테크까지 자체 칩 생태계로 끌어들이는 데 성공했으며 구글은 학습과 추론을 분리한 8세대 TPU로 수직계열화 모델을 가장 멀리 끌고 갔지만 외부 시장 확장에서는 엔비디아 락인 효과라는 두꺼운 벽에 부딪힌 상태다.

MS는 마이아 200으로 추론 시장에 베팅했지만 양산 지연으로 숨을 고르는 모양새다. 이런 상황에서 모건스탠리는 데이터센터용 CPU 시장이 2030년까지 1600억달러로 확대될 것이라며 기존 전망(1000억달러)을 60% 상향 조정했다. 추론 시대 전환과 자체 칩 부상은 이미 숫자로 확인되는 흐름이다.

아직은 훗날의 일이지만 엔비디아와의 시장 재편이 관심사로 부상하는 점도 중요한 관전 포인트다. 다만 여기에는 엔비디아 쿠다라는 소프트웨어 성벽이 얼마나 빠르게 허물어지느냐가 관건으로 보인다. AWS의 토치뉴런, MS의 트리톤·파이토치 네이티브 지원, 구글의 JAX·파이토치 통합 스택이 얼마나 잘 통할지라는 말과 같다.

여기서 학습은 엔비디아, 추론과 범용 워크로드는 자체 칩이라는 이원 구도가 굳어지는 가운데 클라우드 3강의 실리콘 전쟁은 2026년을 분수령으로 본격적인 회수 곡선의 시험대에 올랐다는 평가다. 자본지출의 절대 규모가 아니라 그 자본이 매출과 수익으로 돌아오는 속도가 평가의 잣대로 자리 잡은 지금, 자체 칩 전략의 성패가 빅테크 AI 패권의 향방을 가르는 결정적 변수가 되고 있다.