카이스트 연구진 ‘저렴한 AI’ 기술 개발
전체 맥락을 이해하기 위해서는 본문 보기를 권장합니다.
한국과학기술원(KAIST) 연구진이 소비자급의 저렴한 그래픽처리장치(GPU)를 활용해 인공지능(AI) 서비스를 더 싸게 제공하는 기술을 개발했다.
해당 기술이 상용화되면 더 많은 사용자들이 고품질의 AI 서비스를 부담 없이 이용할 수 있게 된다.
KAIST는 전기및전자공학부 한동수 교수 연구팀이 데이터센터 외부의 소비자급 GPU를 활용해 대형언어모델(LLM) 인프라 비용을 크게 낮추는 기술 '스펙엣지(SpecEdge)'를 개발했다고 28일 밝혔다.
이 글자크기로 변경됩니다.
(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.
데이터센터 대신 주변 GPU로
LLM 인프라 비용 67.6% 낮춰

한국과학기술원(KAIST) 연구진이 소비자급의 저렴한 그래픽처리장치(GPU)를 활용해 인공지능(AI) 서비스를 더 싸게 제공하는 기술을 개발했다. 해당 기술이 상용화되면 더 많은 사용자들이 고품질의 AI 서비스를 부담 없이 이용할 수 있게 된다.
KAIST는 전기및전자공학부 한동수 교수 연구팀이 데이터센터 외부의 소비자급 GPU를 활용해 대형언어모델(LLM) 인프라 비용을 크게 낮추는 기술 ‘스펙엣지(SpecEdge)’를 개발했다고 28일 밝혔다. 스펙엣지는 데이터센터의 GPU와 개인 PC·소형 서버 등에 탑재된 ‘엣지 GPU’가 역할을 나눠 LLM 추론 인프라를 구성하는 방식이다. 해당 기술을 적용한 결과 기존 데이터센터 GPU만 사용하는 방식에 비해 토큰당 비용이 약 67.6% 절감됐다.
연구팀은 기술 개발에 ‘추측적 디코딩’이라는 방법을 활용했다. 엣지 GPU에 배치된 소형 언어모델이 토큰 시퀀스(단어 또는 단어 일부가 순서대로 이어진 형태) 초안을 생성하면, 데이터센터의 대규모 언어모델은 이를 검증·수정한다. 엣지 GPU는 서버의 응답을 기다리지 않고 계속 단어를 만들어 LLM 추론 속도와 인프라 효율을 동시에 높인다. 실제 데이터센터 GPU에서만 추측적 디코딩을 수행하는 방식과 비교해 비용 효율성은 1.91배, 서버 처리량은 2.22배 향상됐다. 또 일상적인 인터넷 속도에서도 문제없이 작동해 실제 서비스에 바로 적용할 수 있는 기술임을 확인했다.
이번 연구에는 KAIST 박진우 박사와 조승근 석사과정이 함께 참여했다. 연구 결과는 이달 2~7일 미국 샌디에이고에서 열린 인공지능 분야 최고 권위 국제 학회인 신경정보처리시스템 학회에서 상위 3.2%의 ‘스포트라이트’ 논문으로 발표됐다.
박선영 기자 pomme@kmib.co.kr
GoodNews paper ⓒ 국민일보(www.kmib.co.kr), 무단전재 및 수집, 재배포 및 AI학습 이용 금지
Copyright © 국민일보. 무단전재 및 재배포 금지.
- ‘청와대 타이틀’ 달고 지방선거 앞으로…강훈식 필두 대통령 참모들 출마 들썩들썩
- 인하대, 해커 랜섬웨어 공격에 홈피 14시간 먹통
- “새벽 3시30분 운명하셨습니다”… ‘마지막 순간’까지 품는다
- 미국서 ‘메가처치’ 번성… 할리우드식 연출·탈정치가 비결
- 직장인 40%, 연차 6일도 못 써…60% “쉬는데 연락”
- 쿠팡 김범석 첫 사과 “질책 받아들여, 철저히 쇄신”[전문]
- “너 때문에 서울대 아들과 절연” 며느리 찌른 시아버지
- ‘학폭’ 수시 지원자 18명 전원 불합격 시킨 ‘이 대학’
- “민망한 메일명 바꾸세요” 구글, 지메일 주소변경 기능 도입
- 개그맨 이혁재, 사기 혐의 피소…“3억 안 갚아”