30일 오후 터보퀀트 관련 온라인 설명회를 진행하고 있는 한인수 KAIST 교수(화면 오른쪽)
발단은 지난 25일 구글 리서치 블로그에 올라온 소개 글이었습니다. '터보퀀트: 극단적인 압축으로 AI의 효율성을 재정의하다'(TurboQuant: Redefining AI efficiency with extreme compression)라는 제목.
공개 직후 잘 나가던 삼성전자와 SK하이닉스의 주가는 크게 출렁였습니다. 터보퀀트의 강렬한 등장이었습니다.
지난 25일 구글 리서치 블로그에 올라온 터보퀀트 기술 소개 글
TJB는 터보퀀트의 핵심 기술 개발에 참여한 한인수 KAIST 전기및전자공학부 교수와 온라인 인터뷰를 통해 만났습니다.
지난 2021년 KAIST 전기및전자공학과 박사 과정을 마친 한 교수는 2024년 4월 미국 예일대학교에서 박사후 연구원을 거쳐 같은 해 9월부터 현재까지 KAIST 전기및전자공학부 조교수를 지내고 있습니다.
지난해 7월부터는 구글 리서치(Google Research)의 방문 연구원으로도 활동하고 있는 한 교수는 터보퀀트에 대해 "더 효율적인 AI로 가는 전환점"이라고 평가했습니다.
터보퀀트의 핵심 기술인 2단계 양자화 기법에 대해 설명한 한인수 교수
터보퀀트의 핵심 기술에 대해 그는 "한 줄로 정리하자면, 먼저 강하게 압축하고 남은 오차를 정교하게 보정하는 2단계 양자화 기법"이라고 말했습니다. 1단계 양자화 이후 잔차(Residual)를 QJL 양자화로 보정하는 과정을 의미합니다.
양자화는 쉽게 설명하면 소수점 데이터를 정수로 근사하는 방식으로 핵심 정보는 유지하면서도 저장 용량과 연산 부담을 줄이는 압축 기술을 가리킵니다. AI 모델은 일반적으로 16-bit로 파라미터를 구현하는데 4-bit 양자화를 하게 되면 메모리의 크기는 4배, 3-bit 양자화를 하면 메모리의 크기는 대략 5.3배 줄어들게 됩니다.
한 교수는 "엄청난 양의 데이터로 인한 메모리 병목 현상을 줄이기 위해 무작위 회전 후 좌표별 독립 양자화(1단계) 이후 잔차에 저비트 양자화(2단계)를 하는 것, 그렇게 1단계 양자화에서 발생하는 편향(Bias)을 2단계의 보정을 통해 제거하는 것이 이번 기술의 핵심"이라고 설명했습니다.
구글은 터보퀀트 실험 결과 큰 메모리 절감 효과가 확인됐다고 밝혔다
그 결과 실제 실험에서 정확도 손실 없이 성능을 유지하면서도 최소 6배의 메모리 절감이 확인됐습니다. 또 메모리 절감뿐 아니라 시스템 구현에 따라 연산 속도 개선도 가능하다는 것이 한 교수의 설명입니다.
한 교수는 국제 공동 연구의 의미에 대해서도 자신의 생각을 밝혔습니다. 그는 "KAIST가 글로벌 연구기관들과 함께 AI 효율화의 핵심 기술을 공동 설계했다"라며 "KAIST의 해외기관 겸직 제도로 인해 기회가 증진됐다. 앞으로도 더 많은 해외 기관과의 협력 기회가 기대된다"고 강조했습니다.
터보퀀트 공개 직후 삼성전자와 SK하이닉스 등의 주가가 요동친 것과 관련해서는 직접적인 언급을 하지는 않았지만, 그는 "연구를 할 때 사실 반도체 시장이 어떻게 될지 임팩트는 크게 생각하지 않았다"고 말했습니다.
이어 "이렇게 좋은 알고리즘 하나가 하드웨어나 메모리 시장까지 영향을 미치는 걸 보고 되게 놀랐다. 그만큼 이런 시스템을 개발하는 것이 굉장히 중요하다는 걸 전달해주는 것 같다"고 덧붙였습니다.
온라인 설명회서 터보퀀트 관련 질문에 답하고 있는 한인수 교수(화면 오른쪽)
한 교수는 터보퀀트의 상용화 가능성에 대한 질문에 "구체적으로 말하기는 어려운 상황"이라면서도 "QJL의 코드도 온라인에 공개가 되어 있다. 이 기술을 정확히 이해하신다면 직접 가져가서 구현을 하고 AI 모델에 적용하는 데는 큰 문제가 없을 것"이라고 설명했습니다.
구글이 지난 25일 공개한 터보퀀트는 앞서 지난해 4월 논문 사전공개사이트 '아카이브'에 공개된 바 있으며, 다음 달 브라질에서 열리는 '국제표현학습학회(ICLR) 2026'에서 공식적으로 발표될 예정입니다.