[AI픽] AI 기억 저장공간 20배 압축…디노티시아 연구논문 채택

KV캐시 압축 기술 공개…연산 속도 6.9배 향상

(서울=연합뉴스) 권하영 기자 = 최근 구글 터보퀀트 등 인공지능(AI)의 메모리 병목을 줄이기 위한 연구가 활발해지는 가운데 국내 AI 스타트업이 AI의 메모리 부담을 줄이는 압축 기술을 개발해 선보였다.

디노티시아는 KV캐시를 압축하는 기술 'STAR-KV' 논문과 소스 코드를 공개했다고 2일 밝혔다.

KV캐시는 대규모언어모델(LLM)이 이전에 읽은 문맥을 다시 계산하지 않도록 그래픽처리장치(GPU)에 저장해두는 임시 기억 공간이다.

AI가 에이전트형 시스템으로 진화하면서 처리해야 하는 문맥이 빠르게 늘어나는 가운데, KV캐시는 GPU 메모리 사용량과 추론 비용을 좌우하는 병목으로 꼽혀왔다.

최근 구글 연구진의 '터보퀀트'가 국제학습표현학회(ICLR) 2026에서 주목받은 데 이어, STAR-KV는 저랭크 압축을 기반으로 양자화와 GPU 실행 최적화를 결합한 새로운 접근을 제시했다.

논문 실험 결과에 따르면 STAR-KV는 저랭크 압축만으로 KV캐시를 최대 75% 줄였으며, 혼합정밀도 양자화 기법을 결합해 전체 KV캐시를 최대 20배까지 압축했다.

또한 핵심 연산인 어텐션(Attention) 연산 속도는 최대 6.9배, 전체 생성 처리량은 최대 3.1배 향상됐다.

정확도 측면에서도 기존 주요 KV캐시 압축 방식보다 높은 수준을 보였다고 회사는 설명했다.

해당 기술은 UC샌디에이고 VVIP랩과 디노티시아 연구진이 참여한 공동 연구로, 글로벌 머신러닝 학회인 ICML 2026에 스포트라이트 논문으로 채택됐다.

디노티시아 정무경 대표는 "STAR-KV는 AI 핵심 병목인 KV캐시 용량 및 어텐션 처리 속도 문제를 실질적으로 해결하는 기술"이라며 "디노티시아는 오픈소스화를 통해 AI 추론 생태계에 기여하겠다"고 말했다.

kwonhy@yna.co.kr

▶제보는 카톡 okjebo

생활