"보고 있나 삼전닉스?"…AI 반도체 판 뒤흔들 빅테크 '승부수'

메모리 덜 쓰는 기술 내놓는 빅테크
구글·엔비디아·딥시크
"칩 확보 매달리지 않겠다"
치솟는 메모리 가격에 대응
메모리 효율화 기술에 '올인'
압축하고 필요 없으면 잘라내
메모리 사용 10분의 1로 줄여

“메모리 반도체를 모으는 전략은 더 이상 유효하지 않다. 대신 중앙처리장치(CPU)와 그래픽처리장치(GPU)의 효율을 높여야 한다.”

인공지능(AI) 데이터기업 웨카의 리란 즈비벨 최고경영자(CEO)는 13일(현지시간) 포브스 기고에서 이렇게 적었다. 메모리 칩 공급난이 길어질 것으로 예상되자 테크기업이 소프트웨어 기술을 통해 생존 전략을 본격적으로 찾아 나선 신호로 해석된다. 빅테크는 메모리 효율을 높이는 소프트웨어 기술을 하나둘 내놓고 있다. 지금의 메모리 수요를 기반으로 낙관이 넘쳐나는 삼성전자와 SK하이닉스도 긴장해야 한다는 지적이 나오는 배경이다.

◇구글과 딥시크가 선도

14일 디인포메이션에 따르면 데이터센터 GPU 활용률을 측정하는 지표인 모델플롭스활용률(MFU)은 40%밖에 안 된다. 최적화에 성공해도 55% 수준에 그친다. 데이터센터의 GPU 절반은 논다는 의미다. GPU의 빠른 연산 속도를 고대역폭메모리(HBM)가 따라가지 못해 생기는 현상이다.

메모리에서 최대 병목 지점은 KV캐시다. KV캐시는 AI 모델이 텍스트를 읽을 때 문맥을 담아두는 HBM 내부의 임시 저장 공간이다. KV캐시 용량이 커질수록 더 많은 HBM이 필요해진다. 구글이 KV캐시 메모리를 6분의 1로 압축하는 ‘터보퀀트’ 기술을 지난 3월 내놓자 삼성전자와 SK하이닉스 주가가 일시적으로 떨어진 이유다.

중국 AI 기업 딥시크도 구글처럼 천정부지로 치솟는 메모리 가격 극복에 나섰다. 지난달 24일 AI 모델 V4를 출시했다. V4는 ‘하이브리드 어텐션’ 기술이 적용돼 전작 V3.2 대비 KV캐시 사용량이 10분의 1로 줄었다.

어텐션은 AI 모델이 보는 단어와 단어 간 관계를 의미한다. V4는 한 종류의 어텐션을 활용하는 기존 AI 모델과 달리 ‘압축희소어텐션’(CSA)과 ‘고강도압축어텐션’(HCA) 두 종류를 섞어 쓴다. CSA는 텍스트를 ‘꼼꼼하게 읽는 눈’에 비유할 수 있다. 4개의 토큰(AI 연산 기본 단위)을 하나로 묶어 압축한 뒤 이 중 핵심적인 의미를 지닌 토큰을 추출한다. 이를 통해 KV캐시를 4분의 1로 줄인다. HCA는 ‘훑어보는 눈’이다. 128개 토큰을 하나로 묶는다. HCA는 중요한 토큰을 골라내지 않아 정보의 밀도는 떨어지지만 전체 대화 문맥을 모델이 이해하도록 해 대화 흐름을 유지한다. V4는 정보를 가공하는 61개 층에 두 어텐션을 배분했다. 0~1층은 HCA가, 2~60층은 CSA와 HCA가 오가며 작동한다.

◇엔비디아·화웨이도 나서

엔비디아는 지난달 6일 미국 매사추세츠공대(MIT), 중국 저장대와 함께 발표한 ‘트라이어텐션’ 기술로 메모리 효율화의 실마리를 찾았다. 이를 통해 KV캐시 사용량을 9.3%로 줄이고, 속도에 초점을 맞추면 연산을 2.5배 빠르게 할 수 있다는 설명이다.

터보퀀트가 KV캐시를 압축해 메모리 사용량을 줄인다면 트라이어텐션은 KV캐시에 담긴 정보 중 중요한 것을 선별하는 기술이다. 터보퀀트가 이미지를 흐릿하게 저장해 용량을 줄이는 압축 기술이라면 트라이어텐션은 이미지에서 불필요한 부분을 잘라내는 방식이다. 기존 KV캐시 압축 기술은 오래된 데이터를 불러오기 어렵다는 한계가 있었는데, 트라이어텐션은 이 문제를 크게 개선했다.

화웨이는 통합컴퓨트메모리(UCM) 기술로 HBM 의존도를 낮췄다. 기존 GPU 연산에서 HBM이 직접 참여하고 일반 D램이 보조적 역할을 한다면 UCM은 HBM과 D램을 하나의 메모리로 쓴다. 미국이 2024년 12월 반도체의 대중(對中) 수출을 금지하자 한국산 HBM을 못 구해 내놓은 방안이었는데, 이제 치솟는 메모리 가격의 대응책이 되고 있다.

실리콘밸리=김인엽 특파원 inside@hankyung.com

한국경제

IT/과학

"보고 있나 삼전닉스?"…AI 반도체 판 뒤흔들 빅테크 '승부수'