구글 '터보퀀트', AI 메모리 사용량 6분의 1로 줄인다

인공지능(AI) 기술이 급격히 발전하면서 메모리반도체 성능이 '병목'으로 지목된다. 게티이미지뱅크 제공

미국 구글이 성능 저하 없이 인공지능(AI) 추론 등에 쓰이는 메모리 사용량을 6분의 1 수준으로 줄이는 알고리즘 기술 '터보퀀트(TurboQuant)'를 공개하며 학계와 산업계 관심을 끌고 있다.

27일 산업계에 따르면 터보퀀트의 등장이 메모리반도체 업계 투자심리에 영향을 미친다는 분석이 나온다. 구글은 터보퀀트 연구성과와 기대 효과를 24일(현지시간) 발표했다.

AI 모델은 벡터라는 개념을 통해 정보를 처리하고 이해한다. 이미지의 특징, 단어 의미 같은 복잡한 정보는 '고차원 벡터'로 표현된다.

고차원 벡터에는 자주 사용되는 맥락 정보를 저장하는 '키-값(KV) 캐시'가 많이 담겨 있어 막대한 양의 메모리가 필요하다. 전체 데이터를 매번 검색하는 부담을 줄이는 기술이다. 챗GPT 같은 대형 언어모델(LLM)에서 AI가 대화 내용을 머릿속에 계속 유지하는 상태에 해당한다.

터보퀀트는 고차원 벡터의 정보 손실을 최소화하면서도 매우 작은 크기로 압축하고 오류 없이 복원하도록 설계됐다. 100페이지에 달하는 암기 내용을 알아보기 쉬운 20쪽 짜리 요약 노트로 간추리는 셈이다.

압축에 폴라퀀트(PolarQuant) 기술을 적용한다. 사각형의 격자 좌표계로 된 기존 키-값 캐시 구조를 '극좌표계'로 변환하는 과정이다. 압축된 벡터를 데이터의 강도를 나타내는 '반지름'과 데이터의 방향·의미를 나타내는 '각도'로 표현한다. '동쪽으로 3블록, 북쪽으로 4블록 가라'는 지시를 '37도 각도로 총 5블록 가라'라고 바꾸는 것과 비슷하다.

폴라퀀트 요약 과정에서 발생한 미세한 오류를 '양자화 존슨-린덴스트라우스 변환(QLJ)'이라는 기술로 보정한다. 정보의 가장 작은 단위인 1비트(bit) 만 소모돼 메모리를 거의 소모하지 않고 오류를 검사한다. 폴라퀀트와 QLJ 연구에는 국내 과학자인 한인수 KAIST 전기·전자공학부 교수도 참여했다.

터보퀀트는 방대한 텍스트 속에 숨어 있는 특정한 작은 정보를 찾아내는 테스트에서 성능 저하 없이도 사용되는 메모리 크기를 6배 이상 줄이는 것으로 나타났다.

현재 AI 기술 하드웨어 병목 핵심은 메모리반도체 부족이다. 터보퀀트 상용화 시 메모리반도체 수요가 줄 것이라는 전망이 나오며 관련 기업 투자에 영향을 주고 있다. 일부 전문가는 메모리반도체 병목 해소 시 AI 서비스가 확장돼 장기적으로 메모리반도체 업계도 수혜를 입을 것으로 본다.

<참고 자료>
- doi.org/10.48550/arXiv.2504.19874
- doi.org/10.48550/arXiv.2406.03482
- doi.org/10.48550/arXiv.2502.02617

[이병구 기자 2bottle9@donga.com]

동아사이언스

IT/과학

구글 '터보퀀트', AI 메모리 사용량 6분의 1로 줄인다