"2030년까지 LLM 추론비용 90%↓…그럼에도 기업 비용부담은 지속"

토큰 단가 하락보다 사용량 증가가 더 빨라

생성형 인공지능(AI) 이용 토큰 단가가 갈수록 하락하지만 기업의 비용 부담은 지속될 것이란 전망이 나왔다.

30일 가트너에 따르면 2030년까지 1조개(1000B) 파라미터를 가진 대형언어모델(LLM)의 추론 비용이 2025년 대비 90% 이상 감소할 것으로 전망된다. 2022년 생성형 AI 초기의 동일 규모 모델에 비해 최대 100배까지 비용 효율성이 개선될 것이란 예측이다.

가트너는 반도체 및 인프라 효율성 개선, 모델 설계 혁신, 칩 활용도 증가, 추론 특화 반도체 확대, 특정 활용사례에 엣지 디바이스 적용 등으로 이 같은 비용 절감이 가능해질 것이라고 설명했다.

이번 전망에서는 최첨단 반도체 기반으로 모델을 처리하는 '프런티어'(frontier) 시나리오와 다양한 기존 반도체를 혼합 활용하는 '레거시 혼합'(legacy blend) 시나리오의 두 가지로 비용을 분석했다. 그 결과 혼합 시나리오는 연산 성능이 상대적으로 낮아 프런티어 시나리오 대비 비용이 상당히 높은 것으로 나타났다.

하지만 토큰 단가 하락이 곧바로 기업의 AI 비용 절감으로 이어지지는 않을 것으로 가트너는 내다봤다. 고도화된 AI 기능에 더 많은 토큰이 요구되는 구조적 특성이 주요 원인으로 지목된다. 예컨대 AI 에이전트는 기존 챗봇 대비 작업당 5~30배 더 많은 토큰을 필요로 하고 수행 가능한 작업 범위도 훨씬 넓다. 토큰 단가는 하락하더라도 토큰 사용량 증가 속도가 더 빠르기 때문에 전체 추론 비용은 오히려 증가할 것으로 예상된다.

이에 가트너는 다양한 모델 포트폴리오 전반에서 워크로드를 효율적으로 오케스트레이션 가능한 플랫폼에 가치가 집중될 것으로 분석했다.

반복적이고 빈도 높은 업무는 보다 효율적인 소형모델이나 도메인 특화 언어모델로 처리하는 식으로, 특정 워크플로에 맞게 활용할 경우 범용모델 대비 훨씬 낮은 비용으로 더 나은 성능을 제공할 수 있다.

비용이 높은 프런티어급 모델의 추론은 고부가가치의 복잡한 추론 작업에만 선택적으로 활용하도록 하는 것을 권했다.

윌 소머 가트너 시니어 디렉터 애널리스트는 "제품총괄책임자(CPO)는 범용 토큰 가격 하락을 고급추론 역량의 대중화로 오해해선 안 된다"며 "기본적인 AI 기능은 사실상 제로 비용에 가까워지고 있지만, 고급추론을 뒷받침하는 컴퓨팅 자원과 시스템은 여전히 희소하다"고 말했다. 이어 "현재 저렴한 토큰 비용으로 아키텍처 비효율을 가리는 기업은 향후 에이전트 기반 AI 확장 단계에서 한계에 직면하게 될 것"이라고 덧붙였다.

팽동현 기자 dhp@dt.co.kr

디지털타임스

IT/과학

"2030년까지 LLM 추론비용 90%↓…그럼에도 기업 비용부담은 지속"