“삼성전자·하이닉스 다 끝났다고?” 하나만 알고 둘은 모른다…‘제본스의 역설’ 주목 [투자360]

홍태화 2026. 3. 28. 18:42
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

지난 16일(현지시간)부터 미국 캘리포니아주 새너제이 컨벤션센터에서 진행된 엔비디아의 연례 개발자회의 ‘GTC 2026’에 마련된 삼성전자 전시장에서 한 관객이 삼성전자의 7세대 고대역폭메모리(HBM) ‘HBM4E’ 시제품을 살펴보고 있다. [연합]

[헤럴드경제=홍태화 기자] 구글의 인공지능(AI) 메모리 효율화 기술 ‘터보퀀트(TurboQuant)’가 시장에 충격을 던지면서 삼성전자와 SK하이닉스 등 메모리 반도체주가 조정을 받았지만, 이를 두고 증권가에서는 과도한 공포라는 분석이 나온다.

기술 효율화가 오히려 더 큰 수요를 부르는 ‘제본스의 역설’이 이번에도 반복될 가능성이 높다는 분석이다.

한종목 미래에셋증권 연구원은 ‘구글 TurboQuant 쇼크’ 보고서에서 “효율화가 수요를 줄인 적은 단 한 번도 없었고, 2026년 3월 바로 지금, 제본스 역설의 가장 생생한 증거가 동시다발적으로 벌어지고 있다”며 이같이 지적했다.

터보퀀트 기술로 인한 효율이 산업의 발전을 부르고 오히려 투자 수요가 급증하면서 반도체 슈퍼 사이클은 계속된다는 주장이다.

특히 “이번 쇼크는 뉴스라기보다 재해석에 가깝다”는 점에서 이러한 주장이 주목받는다. 터보퀀트의 원논문은 이미 2025년 4월 공개됐고, 핵심 기반 연구도 그보다 앞서 알려졌던 내용이기 때문이다.

즉, 새 기술의 등장이라기보다 이미 업계가 소화하고 있던 추론 효율화 기술이 시장에 뒤늦게 주목받으면서 투자 심리를 자극했다.

터보퀀트는 AI 시스템 전체 메모리를 줄이는 기술이 아니라, 추론 단계에서 병목으로 꼽히는 대화 기억 캐시(KV) 캐시를 압축하는 기술이다. 대화가 길어지고 동시 사용자가 늘수록 AI 모델은 더 많은 상태 정보를 메모리에 붙잡아 둬야 하는데, 터보퀀트는 바로 이 부담을 낮추는 데 초점을 맞춘다.

다시 말해 메모리 수요 전체를 무너뜨리는 기술이라기보다, 추론 인프라를 더 공격적으로 확장할 수 있도록 비용 구조를 바꾸는 기술에 가깝다는 것이다.

시장 일각에서 주목받은 ‘6배 압축’이라는 숫자도 실제 산업 현장에 그대로 적용하기는 어렵다는 지적이 나온다. 논문은 16비트 풀 캐시(FP16)를 기준으로 비교했지만, 현재 주요 AI 서빙 환경은 이미 FP8이나 혹은 그보다 훨씬 낮은 수준까지 KV 캐시를 낮춰 쓰고 있다.

이를 고려하면 실질적인 추가 효율 개선 폭은 6배가 아니라 2~3배 수준에 그칠 수 있다. 이미 업계가 상당 부분 해결해 온 영역이라는 의미다.

여기에 한종목 연구원은 효율화가 수요를 죽인 사례가 기술 발전 역사에서 전례가 없다는 점에 주목했다.

대표적으로 영상 압축 기술이 고도화됐을 때 스토리지 수요가 줄어들기는커녕, 유튜브와 숏폼, 초고화질 콘텐츠 확산으로 데이터센터 투자가 폭증했다.

AI도 마찬가지라는 게 그의 시각이다. 추론 비용이 내려가면 기업들은 메모리를 덜 사는 대신 더 긴 컨텍스트, 더 많은 동시 사용자, 더 복잡한 에이전트 워크플로를 구현하려 할 가능성이 높다.

실제 시장에서는 이미 이 같은 흐름이 나타나고 있다. AI 서비스 사용량은 급증하고 있고, 주요 사업자들은 오히려 컴퓨팅 자원 부족을 호소하는 상황이다.

효율화 기술이 존재하는데도 연산 자원과 메모리 공급이 수요를 따라가지 못하고 있다는 점은, 메모리 슈퍼사이클이 아직 끝나지 않았다는 방증으로 해석된다.

특히 터보퀀트가 영향을 미치는 영역은 ‘추론’이다. 하지만 HBM의 구조적 수요를 떠받치는 또 다른 축은 ‘학습’이다. 초거대 AI 모델 학습에는 가중치, 기울기, 옵티마이저 상태, 활성화 데이터 등 막대한 메모리가 필요하며, 이 영역은 KV 캐시 압축만으로는 건드릴 수 없다.

즉 터보퀀트가 추론 효율을 높일 수는 있어도, 학습용 메모리 수요의 본체를 훼손하는 기술은 아니라는 얘기다. 이에 일각에서는 오히려 터보퀀트가 AI 인프라 투자 속도를 높일 수 있다고 본다.

한종목 연구원은 “지금 이 순간에도 컴퓨팅이 남아도는 것이 아니라 여전히 절대적으로 부족하다”며 “효율화는 축소가 아니라, 과거에 비용 때문에 포기했던 워크로드를 다시 부활시키는 연료”라고 강조했다.

Copyright © 헤럴드경제. 무단전재 및 재배포 금지.