AI 판 흔든 터보퀀트… 유일한 한국인 과학자는 카이스트 교수

신혜정 2026. 3. 31. 04:32
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

"범용성이 장점... AI에 빨리 적용 가능
AI 효율화엔 하드웨어 최적화도 필요"
메모리 수요 축소 우려에 에둘러 경계
데이터 6분의 1로 압축 저장 알고리즘
메모리 효율 높이고 높은 정확도 유지
구글, 2분기에 공식 코드 공개할 예정
구글 로고가 24일 미국 텍사스 휴스턴 한 전시장에 걸려 있다. 로이터 연합뉴스

구글이 인공지능(AI) 메모리 사용량을 획기적으로 줄일 수 있는 소프트웨어 최적화 기술인 ‘터보퀀트(TurboQuant)’를 공개하면서 AI 업계와 반도체 시장이 요동치고 있다. AI 서비스 확산의 걸림돌인 메모리 병목을 완화할 수 있다는 기대와 메모리 반도체(하드웨어) 수요 축소에 대한 우려가 공존하는 가운데, 개발에 참여한 한인수 한국과학기술원(KAIST·카이스트) 전기및전자공학부 교수는 "AI 효율화를 위해선 소프트웨어와 하드웨어 최적화가 함께 가는 것이 핵심”이라고 강조했다. 터보퀀트 기술과 메모리의 상호 보완성을 들어 메모리 수요 축소 우려를 에둘러 경계한 것으로 풀이된다.

카이스트는 30일 오후 터보퀀트의 핵심 기술을 설명하는 온라인 기자간담회를 열었다. 현재 구글 리서치 연구원을 겸직하며 터보퀀트 개발에 기여한 한 교수가 발표자로 나섰다. 그는 터보퀀트 구현의 핵심 기반인 '폴라퀀트'와 '양자화 존슨-린덴스트라우스 변환(QJL)' 기술 연구에 참여한 유일한 한국 과학자다.


GPU H100 환경에서 연산 속도 8배 ↑

터보퀀트는 AI 모델이 추론에 활용하는 임시 저장소인 ’키값(KV) 캐시’의 사용을 최적화하는 알고리즘이다. 이 알고리즘 적용만으로 AI가 데이터를 최대 6분의 1로 압축해 저장이 가능하다. 이를 코드로 구현해 소프트웨어로 만들면 본격 상용화가 가능하다. 현재 오픈소스 코드는 나와 있고, 구글은 2분기에 공식 코드를 공개할 예정이다.

실제 AI 추론에 터보퀀트를 반영하면 메모리 효율을 높이면서도 높은 정확도가 유지된다. 과거에도 이 같은 최적화 기술은 연구돼왔지만, 기존 기술과 비교해 터보퀀트는 더 안정적인 성능을 낸다. 한 교수는 시스템 구현 방식에 따라 연산 속도가 빨라질 수 있다는 점도 강조했다. 엔비디아 그래픽처리장치(GPU)인 H100 환경에서 터보퀀트를 적용했을 때 기존 대비 연산 속도가 최대 8배까지 빨라지는 게 실험으로 확인됐다는 것이다.

무엇보다 주목할 점은 범용성이다. 데이터 특성에 따라 미세조정(파인튜닝)을 거쳐야 하는 기존 기술과 달리, 터보퀀트는 별도 조치 없이 AI 모델에 적용할 수 있어 빠른 시일 내에 시장에 적용돼 검증과 상용화가 가능할 거란 전망이다. 한 교수는 이 기술이 “범용 벡터 기반 검색 최적화에도 활용될 수 있다”고 덧붙였다. 벡터 검색은 수십억 개의 정보 중 가장 유사한 정보를 찾는 것으로, 구글 검색은 물론 바이오 연구, AI 서비스의 핵심인 검색증강생성(RAG)에도 유용하다.

한인수 카이스트 전기및전자공학부 교수가 30일 온라인 브리핑에서 터보퀀트 기술에 대해 설명하고 있다. 카이스트 제공

"구글 리서치와 AI 추론 효율화 후속 연구"

기존 최적화 기술과 가장 큰 차별점으로 한 교수는 ‘2중 양자화’를 들었다. 양자화란 정밀한 소수점 단위의 복잡한 데이터를 단순한 정수 형태로 반올림해, 핵심 정보는 유지하면서도 저장 용량과 연산 부담을 획기적으로 줄이는 압축 기술이다. 기존 기술들은 보통 1차 양자화에 멈춘다. 터보퀀트가 2중 양자화를 하는 이유는 1차 양자화(압축) 단계에서 불가피하게 발생하는 오차를 보정해 AI 정확도와 성능을 유지하기 위해서다.

터보퀀트는 우선 다양한 데이터 값을 균일하게 압축하는 ‘폴라퀀트’ 기술로 1차 양자화를 한다. 이 과정에서 발생하는 불가피한 오차 정보까지 QJL 기법으로 기록하는 게 2차 양자화다. 한 교수는 “에러(오차)에도 모두 정보가 있으니 이를 조금이라도 더 가져오자는 철학”이라고 설명했다.

다만 그는 “터보퀀트라는 알고리즘 하나가 세계 하드웨어 시장에 큰 영향을 줄 거라고는 예상을 못 했다”라고 솔직한 소회를 밝혔다. 그러면서 터보퀀트가 향후 메모리 반도체 수요에 어떤 영향을 미칠지에 대해서는 말을 아꼈다.

한 교수는 미국 예일대 박사후연구원 시절부터 이어진 공동 연구자들과의 인연을 계기로 지난해부터 구글과 함께 일하고 있다. 그는 “한국 연구자로서 빅테크와 협력할 수 있는 건 의미 있는 경험”이라며 “앞으로도 구글 리서치와 AI 추론 연산 효율화를 위한 후속 연구를 계속할 계획”이라고 밝혔다.

신혜정 기자 arete@hankookilbo.com

Copyright © 한국일보. 무단전재 및 재배포 금지.