“챗GPT보다 빠르고 저렴”…中 가성비 AI, ‘토큰 경제’ 휩쓸어

김재형 기자 2026. 4. 1. 17:33
음성재생 설정 이동 통신망에서 음성 재생 시 데이터 요금이 발생할 수 있습니다. 글자 수 10,000자 초과 시 일부만 음성으로 제공합니다.
번역beta Translated by kaka i
글자크기 설정 파란원을 좌우로 움직이시면 글자크기가 변경 됩니다.

이 글자크기로 변경됩니다.

(예시) 가장 빠른 뉴스가 있고 다양한 정보, 쌍방향 소통이 숨쉬는 다음뉴스를 만나보세요. 다음뉴스는 국내외 주요이슈와 실시간 속보, 문화생활 및 다양한 분야의 뉴스를 입체적으로 전달하고 있습니다.

기업가치 44조 원의 미국 인공지능(AI) 코딩 스타트업 ‘커서(Cursor)’는 최근 새 모델을 출시하며 곤욕을 치렀다. 막대한 자본력에도 중국 오픈소스 AI 모델 ‘키미(Kimi)’를 몰래 가져다 핵심 연산 엔진으로 쓴 사실이 들통난 것이다. 수십만 줄의 코드를 읽고 스스로 버그를 고치는 코딩 에이전트 특성상 토큰(AI모델이 처리·생산하는 데이터의 단위) 소비가 막대해, 값비싼 미국 모델만으로는 원가를 감당할 수 없었던 탓이다.

글로벌 숙박 공유 플랫폼 에어비앤비의 브라이언 체스키 최고경영자(CEO)도 최근 자사 앱에 알리바바의 AI ‘큐웬(Qwen)’을 연동했다며 “오픈AI (챗GPT)보다 빠르고 저렴하다”고 털어놨다.

AI가 사람 대신 복잡한 업무를 처리하는 ‘에이전트(비서)’ 시대가 열리면서 중국산 저가 모델이 급부상하고 있다. AI 에이전트의 천문학적인 ‘토큰(Token)’ 사용량에 기업들도 ‘가성비’를 따지게 된 셈이다.

● 中 모델, 가성비로 ‘토큰 경제’ 휩쓸어

AI 모델이 처리·생산하는 데이터 연산 단위인 토큰은 쉽게 말해 AI 모델(LLM)을 돌리는 연료(기름)라 할 수 있다. 한 번의 질문에 답하는 챗봇과 달리 AI에이전트는 외부 도구를 여러 차례 호출·검증하며 엄청난 양의 토큰을 순식간에 태운다. 그렇다보니 점차 토큰 대비 가격이 싼 중국 모델에 대한 관심이 커지고 있는 것. 미국 최상위 모델이 고급 휘발유를 넣는 고성능 차라면, 중국산 모델은 싼 경유로도 달리는 실용 차인 셈이다.

토큰 사용량은 AI 모델의 이용 및 생산량 측정을 위한 지표로도 쓰이는데 1일 AI 모델 추적 플랫폼 ‘오픈라우터’의 주간 토큰 사용량을 보면 중국산 AI의 약진이 한눈에 드러난다. 지난달 23일 기준 상위 4개 모델을 중국산이 휩쓸었다. ‘미모 V2 프로(3조9600억 개)’가 1위, 스텝펀의 ‘스텝 3.5 플래시(1조4900억 개)’, 미니맥스의 ‘M2.7(1조2900억 개)’, 딥시크의 ‘V3.2(1조2400억 개)’가 뒤를 이었다. 미국 클로드 소네트 4.6(1조400억 개)은 5위로 밀렸다. 주간 전체 사용량 22조7000억 개 가운데 중국 모델 점유율은 43.3%로, 미국(13.2%)의 세 배를 넘었다.

지난해 4월만 해도 풍경은 딴판이었다. 클로드 소네트 3.7(3090억 개) 등 미국 빅테크 모델이 1~5위를 독차지했고, 전체 1조8000억 개 토큰 사용량 중 과반(53.8%)이 미국 몫이었다. 그러나 올해 초 스스로 코드를 짜고 실행하는 ‘오픈클로’ 같은 자율형 에이전트가 잇따라 등장하면서 판도가 뒤집혔다. 이런 에이전트를 돌릴수록 토큰 소모가 급증하자, 비용 부담을 느낀 기업들이 초저가 중국 모델로 대거 갈아타고 있는 것.

● 中 모델, 한국 기업 현장도 파고들었다

한국에서도 중국 모델이 현장을 파고들고 있다. 보안이 중요한 서비스엔 미국 모델을, 데이터 전처리나 대량 후처리엔 중국산 모델을 쓰는 ‘투트랙’으로 운용이 흔하다. 본보가 지난해 9월 여론조사 플랫폼 리멤버에 의뢰해 국내 정보기술(IT) 담당자 306명을 조사한 결과에서도 알리바바 큐웬(10.0%) 활용률이 오픈AI 챗GPT(52.6%), 메타 라마(14.0%)에 이어 3위를 차지했다. 국내 정보기술(IT) 업계 관계자는 “바이브 코딩(일반 언어로 대화하듯 코딩하는 것)으로 개인 AI 업무 툴(도구)을 만들 때 중국산 모델을 쓰는 경우도 많다”고 말했다.

중국 가성비 AI모델의 침투에 미국에서도 엔비디아의 차세대 칩 ‘루빈(Rubin)’ 등 하드웨어 혁신으로 추론 단가(답변을 생성하는데 발생하는 비용, 일명 토큰 당 비용)를 낮추는 맞불을 놨다. 다만 글로벌 IT 연구기관 가트너는 2030년까지 거대언어모델 추론 단가가 90% 하락하더라도, 에이전트 확산으로 사용량이 최대 30배 늘어 전체 비용 부담은 지속될 것이라고 내다봤다.

윌 소머 가트너 시니어 디렉터 애널리스트는 “고급 추론을 뒷받침하는 컴퓨팅 자원과 시스템은 여전히 희소하다”고 말했다. 가트너는 작업의 경중에 따라 저비용 ‘경유’ 모델과 고성능 ‘고급 정제유’ 모델을 선택적으로 결합하는 ‘멀티 모델 오케스트레이션(조율)’ 역량이 다가올 기업과 국가의 AI 패권을 좌우할 것으로 전망했다.

김재형 기자 monami@donga.com
최지원 기자 jwchoi@donga.com

Copyright © 동아일보. All rights reserved. 무단 전재, 재배포 및 AI학습 이용 금지