[AI픽] AI 기억 저장공간 20배 압축…디노티시아 연구논문 채택
![[디노티시아 제공. 재판매 및 DB 금지]](https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202607/02/yonhap/20260702095119621tylj.jpg)
(서울=연합뉴스) 권하영 기자 = 최근 구글 터보퀀트 등 인공지능(AI)의 메모리 병목을 줄이기 위한 연구가 활발해지는 가운데 국내 AI 스타트업이 AI의 메모리 부담을 줄이는 압축 기술을 개발해 선보였다.
디노티시아는 KV캐시를 압축하는 기술 'STAR-KV' 논문과 소스 코드를 공개했다고 2일 밝혔다.
KV캐시는 대규모언어모델(LLM)이 이전에 읽은 문맥을 다시 계산하지 않도록 그래픽처리장치(GPU)에 저장해두는 임시 기억 공간이다.
AI가 에이전트형 시스템으로 진화하면서 처리해야 하는 문맥이 빠르게 늘어나는 가운데, KV캐시는 GPU 메모리 사용량과 추론 비용을 좌우하는 병목으로 꼽혀왔다.
최근 구글 연구진의 '터보퀀트'가 국제학습표현학회(ICLR) 2026에서 주목받은 데 이어, STAR-KV는 저랭크 압축을 기반으로 양자화와 GPU 실행 최적화를 결합한 새로운 접근을 제시했다.
논문 실험 결과에 따르면 STAR-KV는 저랭크 압축만으로 KV캐시를 최대 75% 줄였으며, 혼합정밀도 양자화 기법을 결합해 전체 KV캐시를 최대 20배까지 압축했다.
또한 핵심 연산인 어텐션(Attention) 연산 속도는 최대 6.9배, 전체 생성 처리량은 최대 3.1배 향상됐다.
정확도 측면에서도 기존 주요 KV캐시 압축 방식보다 높은 수준을 보였다고 회사는 설명했다.
해당 기술은 UC샌디에이고 VVIP랩과 디노티시아 연구진이 참여한 공동 연구로, 글로벌 머신러닝 학회인 ICML 2026에 스포트라이트 논문으로 채택됐다.
디노티시아 정무경 대표는 "STAR-KV는 AI 핵심 병목인 KV캐시 용량 및 어텐션 처리 속도 문제를 실질적으로 해결하는 기술"이라며 "디노티시아는 오픈소스화를 통해 AI 추론 생태계에 기여하겠다"고 말했다.
kwonhy@yna.co.kr
▶제보는 카톡 okjebo
Copyright © 연합뉴스. 무단전재 -재배포, AI 학습 및 활용 금지
- 테일러 스위프트-켈시, 결혼식 앞두고 400억원 통 큰 기부 | 연합뉴스
- 삼척 해수욕장서 신원미상 중년남성 숨진 채 발견…수사 중 | 연합뉴스
- 前연인이 만남 거부하자 오물 뿌려달라…보복대행 의뢰 30대 검거 | 연합뉴스
- 양주 아파트 거실 이불 속에서 1m 넘는 뱀 발견 소동 | 연합뉴스
- '여고생 살해' 장윤기의 물품들, 현직 경찰관 아버지가 폐기 | 연합뉴스
- '캐리어 시신 사건' 아내 "남편이 엄마 수천번 때려 숨지게 해" | 연합뉴스
- '31만원 에어컨' 사려 새벽부터 줄…프랑스 마트 '난장판' | 연합뉴스
- '손흥민에 임신 협박' 여성 징역 4년·남성 공범 2년 확정 | 연합뉴스
- 농가 꿀 훔쳐먹는 사고 반복한 반달가슴곰, 포획돼 보호시설로 | 연합뉴스
- 물린 자국 없었는데…박쥐 접촉한 캐나다 11살 소년 광견병 사망 | 연합뉴스