메모리 압축에 쫄았어?···구글에는 'HBM 대체' 신무기 더 있다

터보퀀트는 전초전 본게임은 따로
TPU·CPU·광네트워크 통합 설계
연결·압축·순환으로 병목 해결해
부품 아닌 설계 경쟁으로 축 이동

구글 임원 아민 바흐닷이 '아이언우드 TPU'를 공개하며 차세대 AI 인프라 전략을 설명하고 있다./ 구글

구글이 공개한 '터보퀀트(TurboQuant)'는 메모리를 압축하는 기술이다. 그러나 이보다 더 근본적인 변화는 따로 있다. 메모리를 줄여서 한켠으로 치우는 수준이 아니라, 애초에 메모리에 의존하지 않는 방향으로 연산 구조를 다시 짜기 시작했다는 점이다.

터보퀀트 방식의 압축은 기존 구조를 유지한 채 부담을 덜어내는 접근이라면, 구글이 동시에 추진하는 '링 어텐션 및 광네트워크' 기반 설계는 메모리를 중심에 두었던 전제를 해체하는 접근으로 해석된다. 메모리를 효율화하는 단계에서, 메모리를 필요 조건에서 밀어내는 단계로 이동한 것이다.

기존 AI 인프라는 HBM을 중심으로 대역폭을 확장하며 병목을 해결해왔다. 반면 구글은 데이터 이동 자체를 줄이고, 네트워크와 연산 구조를 결합해 병목이 발생하지 않는 경로를 설계한다. 메모리를 줄이는 기술이 '전초전'이라면, 메모리를 중심에서 밀어내는 '본게임'이 따로 진행 중인 셈이다.

30일 테크업계에 따르면 구글이 공개한 7세대 AI 가속기 '아이언우드(Ironwood)'는 시스템 전체 연결 구조에 초점을 맞췄다. 3D 토러스 토폴로지를 적용한 슈퍼포드(Superpod)는 9216개의 TPU를 하나의 노드로 묶어 1.77페타바이트(PB) 규모의 공유 메모리 풀을 형성한다. 개별 HBM 용량 한계를 확장하는 대신, 클러스터 전체를 하나의 메모리 공간처럼 활용하는 방식이다.

여기에 광회로 스위칭(OCS)이 결합됐다. 기존 전기식 네트워크 대신 광신호를 사용해 데이터 경로를 재구성하면서 전력 소비를 대폭 낮추고 지연시간을 줄였다. 물리적 메모리 대역폭 확장이 아니라 네트워크 구조를 통해 병목을 해소하는 접근이다.

구글 전략의 핵심은 데이터를 메모리에 쌓아두지 않고 순환시키는 '링 어텐션(Ring Attention)' 구조다. 각 칩이 데이터를 공유 메모리에 저장하는 대신, 연산 과정에서 필요한 데이터를 옆 칩으로 전달하며 처리하는 방식이다.

이 구조에서는 데이터 이동 효율이 성능을 좌우한다. 구글은 터보퀀트를 통해 KV 캐시 데이터를 3비트 수준으로 압축해 전송량을 줄였다. 동일한 네트워크 대역폭에서 더 많은 데이터를 처리할 수 있어, 물리적 메모리 증설 효과를 일부 대체하는 결과를 만든다.

데이터 '저장' 대신 '순환'
CPU까지 묶은 수직 통합

연산 구조 내부에서도 변화가 나타났다. 아이언우드에는 희소 데이터 처리 전용 가속기 'SparseCore'가 탑재돼 데이터 재배치를 실시간으로 수행한다. 이를 통해 연산 유닛이 데이터 도착을 기다리지 않고 연속적으로 작동할 수 있도록 설계됐다. 동시에 FP8 연산을 기본 지원해 데이터 크기를 줄이고 처리량을 높였다.

여기에 더해 구글은 자체 CPU '악시온(Axion)'을 통해 데이터 이동의 마지막 병목까지 줄이고 있다. TPU와 직접 결합된 구조로 PCIe 인터페이스에서 발생하는 지연을 최소화해 '압축-전송-순환-연산'이 하나의 구조로 묶인 형태를 구현한다. 데이터는 저장 대상이 아니라 흐름 속에서 유지되고 처리되는 요소로 재정의된다.

구글의 메시지는 단순하다. 메모리를 줄이는 것이 아니라 덜 쓰는 연산 방식을 채택했다는 것이다. 인공지능 구조분석 전문가는 "데이터를 쌓아두고 꺼내는 구조에서는 메모리가 병목이 되지만, 데이터를 흐르게 만들면 병목의 위치 자체가 사라진다. 삼성전자와 SK하이닉스가 만든 HBM 수십개를 붙여야 나오던 성능을 알고리즘 하나로 대신하는 구조가 된 셈"이라고 설명했다.

☞ 터보퀀트(TurboQuant) = 기존 트랜스포머 구조에서 이미 사용되던 양자화(quantization)와 KV 캐시 최적화 기법을 한 단계 더 밀어붙인 압축 기술이다. 핵심은 모델 내부 데이터를 더 적은 비트로 표현해 메모리 사용량과 전송량을 줄이는 데 있는데 이미 다양한 형태로 적용되고 있다.

예를 들어 FP16에서 FP8로의 전환, INT4·INT8 양자화, KV 캐시 선택적 저장 등은 모두 같은 계열의 기술이다. 더 쉽게 말해 "간섭 패턴은 유지하면서 해상도만 낮춘 기술"이다. 데이터의 정밀도와 양은 줄어들지만 연산을 구성하는 의미 구조 자체는 그대로 유지된다.

여성경제신문 이상헌 기자
liberty@seoulmedia.co.kr

*여성경제신문 기사는 기자 혹은 외부 필자가 작성 후 AI를 이용해 교정교열하고 문장을 다듬었음을 밝힙니다. 기사에 포함된 이미지 중 AI로 생성한 이미지는 사진 캡션에 밝혀두었습니다.

IT/과학

메모리 압축에 쫄았어?···구글에는 'HBM 대체' 신무기 더 있다