같은 메모리로 연산 속도 8배 높여 … AI 효율성 경쟁 시작됐다

메모리 압축 '터보퀀트' 연구 한인수 KAIST 교수 간담회
질문 복잡할수록 답 느려지나
터보퀀트는 두단계 걸쳐 압축
사람이 맥락 파악해 요약하듯
연산 빨라져도 오차는 최소화
한 교수 "스마트폰·자동차 등
온디바이스 AI진입 빨라질것"

전 세계 메모리 반도체 시장을 흔들고 있는 신기술이 30대 한국인 연구자의 논문에서 탄생했다.

한인수 KAIST 전기 및 전자공학부 교수는 구글이 최근 공개한 '터보퀀트'의 핵심 기술을 고안한 두 편의 논문을 썼다. 터보퀀트가 이 두 개의 알고리즘을 결합한 기술임을 감안하면, 사실상 한 교수가 이론적 토대를 모두 제공한 셈이다.

한 교수는 30일 KAIST에서 영상으로 연구 성과 설명회를 열고 "터보퀀트는 최근 인공지능(AI) 업계가 고민하는 메모리 병목을 해소할 수 있는 기술"이라고 의미를 부여했다. 그는 "복잡하고 긴 문제를 풀수록 메모리가 많이 필요하고, 비용과 응답 시간이 함께 증가한다"면서 "터보퀀트는 사용자가 가진 모델에 바로 적용해서 메모리를 줄이고 성능 하락을 최소화할 수 있다"고 설명했다. 반도체 산업 전문가들은 터보퀀트의 등장에 대해 'AI 서비스 효율성 경쟁의 서막'이라고 평가한다.

현재 AI 산업의 가장 큰 병목은 메모리다. AI가 정답을 내놓으려면 이전 기억 데이터를 불러와야 하는데, 질문이 어렵고 복잡할수록 메모리가 저장하고 참조할 정보량도 급증한다. 최근 고대역폭메모리(HBM) 수요가 급증하고, 세계적으로 삼성전자와 SK하이닉스가 주목받고 있는 것도 빠른 데이터 처리 때문이다.

AI가 저장하는 메모리 데이터를 'KV캐시'라 한다. 이 메모리 용량이 커지면 AI는 '아주 두꺼운 백과사전'을 머리에 이고 있는 모양새가 된다. 몸이 무거워지고 답변도 느려진다. 게다가 AI는 사람과 달리 정보를 토큰 단위로 받아들인다. 받아들인 정보는 질문(Query)과 특징(Key), 결과(Value)를 따로 저장한다. 질문이 복잡하고 길어질수록, 특징의 방에 갔다가 결과의 방에 들렀다가 하느라 바쁘다. AI가 참고해야 할 KV캐시가 급증한다는 이야기다.

터보퀀트는 바로 이 KV캐시를 두 단계의 알고리즘으로 압축한다. 한 교수는 "고차원 벡터 메모리의 병목을 줄이기 위해 오차는 최소화하면서 정확도를 유지하는 양자화 알고리즘이 터보퀀트"라고 했다. 양자화란 반올림처럼 복잡한 실제 값을 단순한 값으로 근사하는 과정을 뜻한다. 쉽게 말하면 정보를 대충 요약하는 것이다.

AI는 데이터를 여러 숫자의 묶음인 벡터로 저장한다. 이전까지 공개된 압축 알고리즘은 이 숫자들을 단순히 직접 압축하는 데 그쳐 압축 효율이 떨어졌다. 터보퀀트는 이 벡터를 무작위로 특정 각도만큼 회전시킨 후 다시 되돌리는 방법을 사용한다. 한 교수는 "벡터를 변환하고 나면 숫자들의 분포를 정확하게 추적할 수 있다"고 설명했다.

한 교수가 연구한 폴라퀀트의 핵심 원리 중 하나다. 이 같은 압축을 거치면 메모리 데이터가 일정한 분포에 따라 정리되고, AI가 훨씬 쉽게 이 값들을 양자화하고 분석할 수 있게 된다. 본격적인 연산 전에 사전 정제 작업을 한 번 거치는 셈이다.

일각에서는 터보퀀트가 메모리 데이터를 극좌표로 변환한다고 알려졌지만, 한 교수는 "극좌표 변환은 폴라퀀트에 대한 설명일 뿐, 터보퀀트는 극좌표 변환을 하지 않는다"며 오해를 바로잡았다. 이후 자잘한 오차는 한 교수가 개발한 또 다른 'QJL 기법'으로 보정한다. 한 교수는 "실제 값과 양자화한 값의 잔차를 저비트로 거칠게 저장해 전체적인 에러를 제거한다"고 했다. 기존의 알고리즘이 한 단계 만에 데이터를 압축한 반면, 터보퀀트는 두 단계 작업으로 데이터를 압축하면서도 정확도 손실은 최소화했다.

실제 벤치마크 성능 평과 결과, 터보퀀트는 16비트 메모리를 3.5비트로 약 4.6배 압축했음에도 성능 저하는 전혀 없었다. 이론적으로 터보퀀트는 메모리를 6배까지 압축하고, 연산 속도는 최대 8배까지 높이면서도 데이터 정확도나 성능은 기존 수준을 유지할 수 있다. 미국 대학 연구진이 2024년 개발한 알고리즘 'KIVI'는 약 3배 정도 압축했을 때 좋은 성능을 내지만, 그보다 더 압축하면 성능이 크게 떨어진다.

일부 전문가는 터보퀀트를 위한 고성능 하드웨어 칩이 필요하다고 주장하지만, 한 교수는 "터보퀀트의 연산은 지금의 그래픽처리장치(GPU)로도 할 수 있는 일"이라고 했다. 그는 "지금까지 하드웨어에만 집중돼 있던 AI 시장이 터보퀀트를 계기로 소프트웨어에도 관심을 갖길 바란다"며 "AI 확산을 위해서는 알고리즘 같은 소프트웨어 개발과 이론 연구도 중요하다는 걸 이번에 보여준 것 같다"고 했다.

한 교수는 터보퀀트가 향후 온디바이스 AI, 추천이나 검색 알고리즘, 증강검색(RAG) 시스템에 범용적으로 활용될 수 있다고 봤다. 온디바이스 AI는 서버를 거치지 않고 스마트폰, 자동차 등 기기 자체에서 운영되는 AI다. 기기에서 모든 연산이 이뤄져야 하고, 메모리 및 전력 효율이 높아야 한다는 점이 기술적 장벽이다.

한 교수는 "(터보퀀트가) 온디바이스 AI의 진입장벽을 낮출 수 있을 것"이라며 "보안이 필수적인 군사 관련 기술에도 큰 영향을 미칠 것이라고 생각한다"고 했다.

[최원석 기자 / 고재원 기자]

매일경제

IT/과학

같은 메모리로 연산 속도 8배 높여 … AI 효율성 경쟁 시작됐다